VoiceXML-Zentrale: Die deutsche VoiceXML Seite

von Udo Glaeser

Startseite

Tutorials

Tipps & Tricks

VoiceXML Referenz

Links

Impressum

VUI Design Tipps

VoiceXML Coding Tipps

Voice User Interface Design

1 Allgemeines
2 Prompt Design
  2.1 Dem Anrufer das Wort in den Mund legen
  2.2 Die Speicherfähigkeit von Informationen
  2.3 Wo im Dialog befinde ich mich ?
  2.4 Dem System eine Person geben (Persona Design)
  2.5 Fehlerbehandlung
  2.6 Barge-In
  2.7 Dialoge für neue Kunden und alte Hasen (Mixed Initiative)

1 Allgemeines

Das Ziel eines jeden Sprachdialogs sollte sein, dass der Kunde glaubt, in einer natürlichen Konversation mit dem System zu sein.

Ansagen (Prompts) sind in einem Sprachdialog der entscheidende Faktor. In einem Webdialog kann der User mehrere optische und auch akustische Informationen gleichzeitig aufnehmen und sich dadurch blitzschnell auf einer Webseite orientieren.

In einem Sprachdialog ist das Ganze etwas komplizierter, denn steht dort nur das Medium Audio zur Verfügung. Informationen werden dort sequentiell, d.h. nacheinander übermittelt. Das kostet einerseits Zeit, andererseits kommt erschwerend hinzu, dass der Anrufer nur einen geringen Teil der Audioinformation kurzzeitig in seinem Gedächtnis speichern kann. Oberste Maxime ist demnach: 'Formuliere kurz und knapp'.

Nachfolgend beschreibe ich einige Tipps, die man für ein gutes User Interface beherzigen sollte. Dabei unterscheide ich zwischen Ausgabe (Prompt Design) und Eingabe (Grammar Design).

2 Prompt Design

Wie bereits erwähnt, steht in einer Sprachapplikation einzig Sprache und Sound als Informationskanal zur Verfügung. Wegen dieser Einschränkung sollte man unbedingt die nachfolgenden Tipps berücksichtigen, um eine robuste Sprachanwendung zu erhalten.

Nach oben

2.1 Dem Anrufer das Wort in den Mund legen

In Sprachdialogen sind Menschen wie Papageien: Sie sprechen alles nach oder orientieren sich zumindest an dem, was man Ihnen im Prompt gesagt hat, d.h. in nahezu allen Fällen wiederholen sie Verben, die man ihnen in den Mund gelegt hat.

Das hat zur Folge, das man in der Grammatik unbedingt das berücksichtigen muss, was man im Prompt bereits "vorformuliert" hat. Wenn man den Anrufern nicht sowieso schon vorgibt, was sie sagen können (Für Hilfe sagen Sie: 'Hilfe'), werden diese aus den Verben des Prompts heraus Aussagen "bauen", auch wenn das Verb nichts mit der eigentlichen Grammatik zu tun hat.
Beispiel:
"Um Ihre Nachrichten abzufragen sagen Sie: 'Nachrichten anhören'."

Manche Anrufer werden brav "Nachrichten anhören" sagen, während andere jedoch auch mit "Nachrichten abfragen" reagieren, obwohl das Prompt etwas anderes vorgibt.
Konsequenz:
Beide Aussagen sollten in der Grammar abgelegt sein.

Nach oben

2.2 Die Speicherfähigkeit von Informationen

Die Art, Informationen in Sprachapplikationen zu präsentieren, unterscheidet sich radikal von der Präsentation innerhalb einer grafischen Oberfläche. Auf einer Webseite können Unmengen an Information gleichzeitig dargestellt werden, und der User kann z.b. Formulare in beliebiger Reihenfolge ausfüllen.

Im Gegensatz dazu sind bei Sprachapplikationen nur sequentielle Informationen möglich, der Mensch kann nicht auf zwei Sachen gleichzeitig hören.

Desweiteren muß der VUI Designer darauf achten, den Anrufer nicht mit Informationen zu überladen.
In einem klassischen IVR-Sprachmenü wird es beim 5. Menüpunkt schon kritisch: der Anrufer kann sich an den erstgenannten Menüpunkt meistens nicht mehr erinnern.
Aber der Mensch hat auch gelernt, gegenzusteuern. Sobald er auch nur ansatzweise glaubt, den gewünschten Menüpunkt gefunden zu haben, wird er das System unterbrechen. Bei ähnlich klingenden Menüpunkten/ Funktionen sind Fehlverhalten dann vorprogrammiert.

Das bedeutet jetzt nicht, das man alle Menüs auf 5 Punkte beschränken soll. Abhängig vom Bekanntheitsgrad der Anwendung kann man durchaus mehr Informationen anbieten. Bei einer Banking-Anwendung sind die Menüpunkte z.b. für jeden vorab klar (Kontostand, Überweisung, Dauerauftrag, Aktien, Finanzierung, Sparen,...).
Wichtig ist dabei jedoch, dass der Anrufer jederzeit weiß, wo er sich befindet und was er gerade tut.
Siehe auch: Wo im Dialog befinde ich mich ?)

Zusammenfassend bedeutet das für ein gutes Prompting:

1. In der Kürze liegt die Würze.
2. Wichtige Informationen zuerst.
3. Ein geistiges Modell der Anwendung erzeugen.

Nach oben

2.3 Wo im Dialog befinde ich mich ?

Im Gegensatz zum grafischen User Interface kann der Anrufer einer Sprachapplikation nicht unbedingt jederzeit feststellen, wo er sich befindet.
Eine grafische Oberfläche gibt durch einfachen Blick auf den Bildschirm weit mehr Informationen preis:

Man erkennt jederzeit, in welchem Programm man gerade arbeitet.
Der Mauszeiger informiert über eventuelle Wartezeiten (Sanduhr).
Ich kann beliebig zwischen Anwendungen wechseln.

Versuchen Sie das einmal für das menschliche Gehör darzustellen !

Abhilfe schaffen hier sogennante "Landmarks", akustische Informationen, wo der Anrufer sich im Dialog gerade befindet. Dies kann verbal gestaltet werden "Dies ist eine Hilfe zu Überweisungen.", aber auch durch simple Töne (werden in Analogie zum Icon gerne Earcon gennant).

Ein weiterer Vorteil liegt auf der Hand: Sollte die Applikation einmal falsch reagieren, weil Aussagen zu nahe beieinander liegen und verwechselt werden, erkennt der Anrufer den Fehler meistens sofort, und kann gegensteueren.

Nach oben

2.4 Dem System eine Person geben (Persona Design)

Persona Design ist eine polarisierende Frage bei jeder Sprachapplikation: Die Einen mögen es, die Anderen hassen es.
Trotzdem sollte man immer wieder darüber nachdenken. Wie soll der Dialog "rübergebracht" werden ?
Die Kundenansprache ist eng mit der Zielgruppe verbunden:
Eine Surfschule auf Fuerteventura würde nie in Beamtendeutsch sprechen, und eine Hotline der Rentenversicherung sollte niemals auf irgendwelche "hippen" Ausdrücke setzen (zumindest noch nicht).

Das System sollte in professioneller Manier mit dem Kunden umgehen: Sicher, bestimmend, jedoch nicht starr oder zugeknöpft. Kunden tendieren zu einer einheitlichen, seriösen Konversation, wenn das Sprachdialogsystem sich "Bussiness-like" gibt. Andere, wie die oben gennanten Personas fordern unpassende Aussagen der Anrufer geradezu heraus.

Ein weiteres gutes Designelement ist das Konzept der "Discourse Markers". Dieses sind verbindende Wörter wie z.b.: "OK", "Nun", "Nebenbei bemerkt", "Übrigens",.... Discourse Markers sind ein natürlicher Bestandteil der menschlichen Sprache und sollten bei einem Sprachdialog unbedingt berücksichtigt werden.

Beispiel: "Übrigens, sie können mich jederzeit unterbrechen, indem sie einfach sagen, was sie möchten."
Ein so begonnener Satz klingt weit weniger kommandohaft und hat mehr Bindung zum vorher Gesagten, als ohne Verwendung von Discourse Markern: "Sie können mich jederzeit unterbrechen, indem sie einfach sagen, was sie möchten."
Der Anrufer wird auch weit weniger verwirrt sein, da die Antwort nicht unbedingt eine unmittelbare Reaktion auf das vom Kunden Gesagte ist.

Nach oben

2.5 Fehlerbehandlung

Es gibt zwei Arten von Fehlern: Der Anrufer sagt
a) etwas Falsches oder
b) gar nichts.
Auf beides solte man entsprechend reagieren, grundsätzlich sollte man aber bereits das Auftreten dieser Situationen verhindern.

Eine entsprechende Reaktion sollte stufenweise aufgebaut werden:

1. Auftreten:
Lapidare Information, das ein Fehler auftrat: "Ich habe Sie nicht verstanden.". Danach Wiederholung der Frage.
2. Auftreten:
Erneute Information, das ein Fehler auftrat: "Ich habe Sie erneut nicht verstanden.". Darüber hinaus eine ausführlichere Hilfe, was man sagen kann: "Sie können hier Überweisungen tätigen, oder ..."
3. Auftreten:
Erneute Information, das ein Fehler auftrat: "Ich habe Sie erneut nicht verstanden.". Darüber hinaus eine kurze und direkte Hilfe, was man sagen kann: "Sagen Sie 'Überweisung' oder 'Kontostand abfragen'."
4. Auftreten:
Erneute Information, das ein Fehler auftrat: "Ich habe Sie noch immer nicht verstanden.". Anschliessend höfliche Verabschiedung "Anscheinend liegen Schwierigkeiten mit der Spracherkennung vor....". Dialog beenden.

Der Fall 'keine Eingabe' (Fall B) wird analog behandelt. Manchmal lässt man das erste "Ich habe Sie nicht gehört." weg, und wiederholt stumpf die Frage.

Nach oben

2.6 Barge-In

Es gibt so gut wie keine menschliche Kommunikation, in der der Eine dem Anderen nicht mindestens einmal ins Wort fällt. Nun geht man bei einem Sprachdialog nicht von einer natürlichen, menschlichen Kommunikation aus (das wäre auch zu vermessen), jedoch je mehr Erfahrung der Anrufer mit dem Dialog hat, desto eher wird er ihm auch ins Wort fallen, einfach um schneller ans Ziel zu gelangen. Nebenbei bemerkt, eine Maschine wird sich weit seltener als ein Mensch über das ständige Unterbrechen beschweren.

Das Feature des Unterbrechens wird "Barge-In" (Hereinplatzen, Einmischen) genannt. Grundsätzlich sollte jeder Dialog davon reichlich Gebrauch machen, es sei denn, die Zielgruppe ist in lauten Umgebungen zu finden, denn laute Störgeräusche können ebenso ein Barge-In auslösen.

Die Vorteile überwiegen jedoch:
Neue, noch nicht mit dem System vertraute Anrufer, werden sich die Ansagen bis zum Ende anhören, bevor sie überhaupt etwas sagen.
Erfahrene Nutzer können umgehend dazwischen sprechen, und erreichen ihr Ziel schneller, was zur Zufriedenheit beiträgt.

Man sollte jedoch unbedingt die Hinweise unter 2.2 beachten, und z.b. wichtige Informationen zuerst nennen.

Darüberhinaus gibt es Gelegenheiten, bei denen man Barge-In grundsätzlich deaktivieren sollte, z.b. bei aufeinander folgenden Fehlern (2. oder 3. Fehler in Folge), oder wenn rechtlich bindende Informationen vermittelt werden sollen.

Nach oben

2.7 Dialoge für neue Kunden und alte Hasen (Mixed Initiative)

Stellen Sie sich vor, sie würden zum erstenmal eine telefonische Überweisung innerhalb eines Sprachdienstes tätigen ? Kennen Sie auf Anhieb die benötigten Informationen für die Überweisung ?
Als erstmaliger Nutzer wollen Sie vom System "an die Hand genommen" werden.

Jetzt stellen Sie sich dieselbe Situation vor, jedoch ist es Ihre 100. Überweisung. Das System wird Ihnen quälend langsam vorkommen.

Was Sie jetzt brauchen ist der in VoiceXML implementierte gemischt-sprachliche Dialog (Mixed Initiative).
Bei der Mixed Initiative Dialogform wird quasi allen geholfen: Der Poweruser kann alle Informationen in einen Satz packen:
"Ich möchte übermorgen auf das Konto ... bei der Bank ... 250 Euro überweisen."
Der Neukunde würde etwa sagen "Ich möchte Geld überweisen.", und das System wird die fehlenden Informationen erfragen.

Die gesamte Aktion wird dabei in mehrere Informationsstücke (Slots) geteilt, welche teilweise oder komplett gefüllt werden. Man spricht in dem Zusammenhang auch von einem slot-filling Dialog.
Die Intelligenz des Dialoges steckt nun darin, die vorhandenen Informationen zu verarbeiten, und nur noch nach fehlenden Angaben zu fragen.

Für Neukunden ist es ebenso ratsam, einen speziellen Dialog vorzusehen, der alle Schritte eingehender erläutert. Wenn Neukunden das erste Mal anrufen, haben Sie wahrscheinlich keine Ahnung von dem, was Sie erwartet. Eine allgemeine Einführung (automatisch oder auf Nachfrage) kann die ersten Hürden abbauen.

Weitere Informationen gibt es im Mixed Initiative Tutorial.

Nach oben

VoiceXML Tipps & Tricks

http://www.glaeser-bonn.de