VoiceXML-Zentrale: Die deutsche VoiceXML Seite

von Udo Glaeser

Startseite

Tutorials

Tipps & Tricks

VoiceXML Referenz

Links

Impressum

VoiceXML Grundlagen

Dynamisches VoiceXML

Grammar Tutorial

Mixed Initiative

Tutorial: VoiceXML Einführung

Inhalt

1 Allgemeines
   1.1 Historie
   1.2 Wozu dient VoiceXML ?
   1.3 Wie funktioniert VoiceXML ?
2 VoiceXML Grundlagen
   2.1 Dialogelemente
      2.1.1 <form>
        2.1.1.1 Field items
        2.1.1.2 Control items
      2.1.2 <menu>
      2.1.3 <subdialog>
   2.2 Datenein- und ausgabe
      2.2.1 <prompt>
      2.2.2 Grammar
        2.2.2.1 Inline Grammar
        2.2.2.2 Explizite Grammar
        2.2.2.3 Grammar mit Optionslisten: <option>
   2.3 Ablaufkontrolle zwischen forms, items & Dokumenten
      2.3.1 <goto>
      2.3.2 <submit>
      2.3.3 <script>
   2.4 Bedingte Verzweigungen
   2.5 Applikationen mit mehreren Dokumenten
      2.5.1 Festlegung eines Root-Dokumentes
   2.6 Ereignisbehandlung
   2.7 Variablen, Ausdrücke und Scope
      2.7.1 <var>
      2.7.2 <assign>
      2.7.3 Gültigkeitsbereich (scope) von Variablen
   2.8 Weitere Elemente
      2.8.1 <link>
      2.8.2 <meta>
      2.8.3 <filled>
      2.8.4 <clear>
      2.8.5 <reprompt>
      2.8.6 <disconnect>, <exit>

1 Allgemeines

1.1 Historie

VoiceXML ist eine Markup-Sprache zur Erstellung von Voice User Interfaces (VUI).

Gegründet wurde das VoiceXML Forum von AT&T, IBM, Lucent und Motorola im März 1999 mit dem Ziel eine neue Computersprache zu entwickeln, welche Inhalte und Informationen im Internet über Sprache und Telefon zugänglich macht.

Die Gründungsmitglieder erstellten im Jahr 2000 die erste Version des VoiceXML Standards (1.0). Im Oktober 2001 folgte die Version 2.0; diese wurde vom W3C jedoch erst in 2004 als offizieller Standard festgeschrieben. Derzeit ist die Version 2.1 veröffentlicht, und es wird bereits an einer Version 3 (genannt V3) gearbeitet, die multimodale Aspekte stärker berücksichtigt.

1.2 Wozu dient VoiceXML ?

VoiceXML wurde für Telefonanwendungen entwickelt, die auf Sprache basieren und unterstützt daher folgende Features:

Erkennen von gesprochener Eingabe
Erkennen von DTMF Eingaben, d.h. Eingaben über die Telefontastatur
Aufnahme von Sprache
Ausgabe von Audiodateien
Ausgabe von synthetischer Sprache, d.h. Umwandlung von Text in Sprache
Telefoniefeatures wie Verbinden und Trennen (transfer, disconnect)

1.3 Wie funktioniert VoiceXML ?

VoiceXML nutzt vorhandene Webarchitekturen. Anwendungen werden im Voice Browser ausgeführt, der ähnlich wie Webbrowser die Schnittstelle zwischen Internet und Mensch bilden. Der Voice Browser sowie die Verbindungen ins Telefon- und IP-Netz werden in der Regel auf einem Voice-Gateway zur Verfügung gestellt, welchen man mit jedem handelsüblichen Telefon anrufen kann. Man erreicht somit durch VoiceXML weit mehr Nutzer als durch das datengestützte Internet.

Für die Dateneingabe in einem laufenden VoiceXML Dialog wird Automatische Spracherkennung (ASR) und/oder DTMF-Tastenerkennung verwendet, bei der Ausgabe greift man auf synthetische Sprache (TTS) bzw. Audiodateien zurück.

Anrufer interagieren mit dem System über einen sog. Voice Browser, der die Sprachkommandos ausgibt bzw. entgegennimmt, analog zum Web Browser, der die HTML-Webseiten visuell aufbereitet und auf Eingaben/Mausklicks des PC-Nutzers wartet.

Erläuterung zur Farbgebung

Die Erläuterungen in diesem Dokument folgen einem gewissen Farbschema.

<var>	Grün bezeichnet VoiceXML Tags
Attribut	Rot bezeichnet Attribute zu einem best. VoiceXML Tag
<form> <block> </form>	Blau bezeichnet Beispielcode