VoiceXML-Zentrale: Die deutsche VoiceXML Seite

von Udo Glaeser

Startseite

Tutorials

Tipps & Tricks

VoiceXML Referenz

Links

Impressum

VoiceXML Grundlagen

Dynamisches VoiceXML

Grammar Tutorial

Mixed Initiative

Tutorial: VoiceXML Grammatiken

Inhalt

Dieses Tutorial gibt eine detaillierte Einführung in die Grammatiken, die in VoiceXML verwendet werden. Im Folgenden werden folgende Punkte adressiert:

1 Allgemeines zu VoiceXML Grammatiken
2 Arten von VoiceXML Grammatiken (Grammars)
      2.1 Implizite Grammar
      2.2 In-line Grammar
      2.3 Built-In Grammar
      2.4 Externe Grammar
      2.5 Kombinationen von Grammars
3 Grammatiken der Spracherkenner (ASR Grammar)
      3.1 Nuance GSL
      3.2 W3C SRGS
      3.3 Nuance SRGS für OpenSpeech Recognizer
      3.4 ABNF
4 DTMF Grammatiken
      4.1 Übersicht
      4.2 SRGS
5 Grammarspezifische Einstellungen in VoiceXML
      5.1 Bargein
      5.2 Confidence level
6 Natürliche Spracherkennung - Tags & Slots
7 Weitere Informationen und Links

1 Allgemeines zu VoiceXML Grammatiken

Grammatiken beschreiben die möglichen Eingaben, die ein VoiceXML Browser zu einem definierten Zeitpunkt akzeptiert. Wenn der Anrufer eine Sequenz von DTMF- Tasten eingibt, oder eine bestimmte Phrase ins Telefon spricht, vergleicht der VoiceXML Browser, diese Sequenz / Phrase mit einer der gegenwärtig aktiven Grammatiken. Im Erfolgsfall wird der Browser die mit der Eingabe verbundene Aktion ausführen, d.h. er wird die dem <field> Tag zugehörige <filled> Sektion ausführen. Sollte der Anrufer nichts sagen, oder etwas, das der Voice Browser nicht in der Grammatik findet, so wird ein <noinput> bzw. <nomatch> Event ausgelöst, auf das an anderer Stelle in der Applikation reagiert werden kann. Dabei stellt der VoiceXML Browser Standardreaktionen zur Verfügung, die man nach Belieben verändern kann.

Das Design von Sprachgrammatiken ist eine anspruchsvolle Aufgabe. Die möglichen Äußerungen eines Anrufers müssen mit Bedacht ausgewählt werden, damit man genau die Informationen zu erhält, die man in der laufenden Anwendung gerade benötigt. VoiceXML Grammatiken besitzen bestimmte Charakteristiken, die es zu beachten gilt:

Grammatiken sind historisch bedingt an den Spracherkenner gebunden.
Grammatiken besitzen eine spezifische Syntax.
Grammatik-Design ist Teil einer guten Dialogentwicklung. Der Entwickler muss die möglichen Äußerungen im Dialogzusammenhang erkennen und verstehen können.
Grammatiken haben unterschiedliche Gültigkeitsbereiche.
Es können gleichzeitig mehrere Grammatiken aktiv sein.
Grammatiken können auf unterschiedliche Art und Weise referenziert werden.

Grammatiken sind typischerweise an den Lieferanten der Spracherkennungssoftware (ASR Engine) gebunden. Dies ist seitens der VoiceXML Spezifikation nicht geplant, jedoch im heutigen Spracherkennungsmarkt Fakt. Das W3C ist innerhalb der Version 2.0 der VoiceXML Spezifikation mit der Definition eine plattformunabhängigen XML Grammatik, der Speech Recognition Grammar Specification (SRGS) diesem Umstand entgegengetreten, und mehr und mehr Spracherkenner folgen mittlerweile diesem Standard.

Die Hauptunterschied zwischen der standardisierten und der ASR-spezifischen Grammatik sind z.B.

Unabhängige Grammatiken sind portierbar.
Ein einziger Standard ist leichter erlernbar als mehrere spezifische Sprachen.
Unabhängige Grammatiken sind weniger reich an Funktionen.
Es gibt kein einheitliches Format für die Kompilierung (Grammatiken werden vor der Verwendung im Spracherkenner in maschinennahe Befehle kompiliert).
Es existieren bereits vielfältige spezifische Grammatiken oder Tools zum Erstellen und Pflegen spezifischer Grammatiken.

Viele VoiceXML Gateways unterstützen neben den im W3C definierten unabhängigen Formaten eine oder mehrere spezifische ASR Formate. Aus technischer Sicht steht der Benutzung von mehreren Spracherkennern nichts entgegen, lizenzrechtlich gesehen sollte man sich für einen Hersteller entscheiden, denn ASR Lizenzen sind neben der TTS der mit Abstand teuerste Teil einer VoiceXML Plattform.

Spezifische Spracherkenner sind u.a.

Nuance OpenSpeech Recognizer (vormals Scansoft bzw. SpeechWorks)
Nuance 8.x
IBM
Telisma
Microsoft

Scansoft hat in den letzten Jahren nahezu alle grossen ASR-Lieferanten aufgekauft (Philips, SpeechWorks, Nuance) Sie sind nunmehr mit Abstand die Nummer eins am Markt. Scansoft nennt jedoch -wegen des grossen amerikanischen Marktes- seinen Spracherkenner "Nuance ASR", und dabei gibt es zwei Versionen:

Nuance 8.x (Name beibehalten)
Nuance OSR (vormals Scansoft OSR bzw. SpeechWorks OSR)

Es bleibt abzuwarten, wie sich Nuance bei den zukünftigen Version ihrer Spracherkenner positioniert.

VoiceXML-Zentrale: Die deutsche VoiceXML Seite

von Udo Glaeser

Tutorial: VoiceXML Grammatiken

Inhalt

1 Allgemeines zu VoiceXML Grammatiken

2 Arten von VoiceXML Grammatiken (Grammars)

2.1 Implizite Grammar

2.2 In-line Grammar

In-line Grammar (VoiceXML Default Format)

In-line Grammar (ASR spezifisches Format)

In-line DTMF-Format

2.3 Built-in Grammar

2.4 Externe Grammatiken

2.5 Kombinationen von Grammatiken

3 Grammatiken der Spracherkenner (ASR Grammar)

3.1 Nuance GSL

Verwendung von Slots in Nuance Grammatiken

Verwendung von Subgrammatiken

Slots in VoiceXML

Multi-slot Grammatik

3.2 W3C SRGS

3.3 Nuance SRGS für OpenSpeech Recognizer

3.3.1 Allgemeines zu Nuance SRGS

3.3.2 <grammar>

3.3.3 <rule>

3.3.4 <ruleref>

3.3.5 <item>

3.3.6 <one-of>

3.3.7 <tag>

3.3.8 Weitere Tags

3.3.9 Multi-Slot SRGS Grammatiken

3.4 ABNF Grammatik

Verwendung von Slots in ABNF Grammatiken

ABNF Sub-Grammatiken

Subgrammatiken & Slots in ABNF

4 DTMF Grammatiken

4.1 Allgemeines

4.2 SRGS DTMF Grammatiken

5 Grammarspezifische Einstellungen in VoiceXML

5.1 Barge In

5.2 Confidence level

6 Natürliche Spracherkennung - Tags & Slots

7 Weitere Informationen und Links