Please activate JavaScript!
Please install Adobe Flash Player, click here for download

Nova Acta Leopoldina Band 110 Nummer 377

Abb. 8 Multi-Nachrichtentafel-Architektur für ein Sprachdialogsystem In Abbildung 8 werden drei Nachrichtentafeln (als Ellipsen dargestellt) verwendet, wobei In- formation zwischen den Komponenten von oben nach unten (top down) und von unten nach oben (bottom up) fließen kann. Dieses Beispiel aus dem Verbmobil-System zeigt, dass drei verschiedene Parser an der syntaktischen Analyse über dem Worthypothesengraphen beteiligt sind, um eine Diskursrepräsentation zu erzeugen. Es ergibt sich eine enge Verzahnung von probabilistischen und wissensbasierten Verarbeitungsmethoden in einem hybriden und über die Nachrichtentafeln eng vernetzten Gesamtsystem. Aktuelle Sprachdialogsysteme können auch die jeweils gesprochene Sprache anhand von statistischen Sprachmodellen (vgl. MANNING und SCHÜTZE 2000) erkennen. So haben wir in un- serem Dolmetschsystem Verbmobil (vgl. WAHLSTER 2000) die Möglichkeit, nach 3 s Sprach- eingabe zu entscheiden, ob der Sprecher eine der Sprachen Deutsch, Japanisch oder Englisch spricht. Dabei werden zwei Spracherkenner für Deutsch und Englisch parallel benutzt und über Schwellwerte der Erkennungskonfidenzen für die Wörter in dem betrachteten kurzen Zeitinter- vall wird dann eine Entscheidung getroffen, wobei in 87 % der Fälle im Testkorpus schon mit diesem einfachen Ansatz die richtige Sprache automatisch korrekt identifiziert werden kann. Häufig wird ein Worthypothesengraph als Ausgabe der Spracherkennung und als Eingabe für die Sprachanalyse verwendet. Dabei werden unterschiedliche Worthypothesen den jewei- ligen Zeitintervallen zugeordnet und mit einem Wahrscheinlichkeitswert versehen. Jeder Pfad durch den Graphen, der das gesamte Eingabesignal zeitlich überspannt, stellt dann eine mögliche Interpretation der akustischen Eingabe dar. Die Unsicherheit bei der In- terpretation wird durch die Anzahl der verschiedenen Pfade in dem Graphen visualisiert, wie Abbildung 9 für die intendierte Lesart „Dann möchte ich doch lieber ins Kino gehen“ zeigt. Hier wurden z. B. statt „dann“ auch „da“ und statt „möchte“ auch „werde“, „will“ und „würde“ als Worthypothesen generiert. Erfolgreiche sprecherunabhängige Spracherkennung mit geringer Wortfehlerrate basiert heute fast ausschließlich auf Hidden-Markov-Modellen (HMM), die mit Hilfe maschineller Nova Acta Leopoldina NF 110, Nr. 377, 119–141 (2011) Wolfgang Wahlster 128