Please activate JavaScript!
Please install Adobe Flash Player, click here for download

Nova Acta Leopoldina Band 110 Nummer 377

in statistischen Modellen berücksichtigt werden. Erschwerend wirkt, dass viele Menschen einen Dialekt sprechen und damit eine Vielzahl weiterer Aussprachevarianten entstehen, die zu Interpretationsunsicherheiten führen. So kann die Äußerung „Ich find das nätt.“ je nach Heimat des Sprechers als „Ich finde das nett“ oder „Ich finde das nicht“ interpretiert werden. Eine weitere Schwierigkeit bei der Computermodellierung von Sprachverstehen besteht darin, dass Wortgrenzen oft im Sprachfluss untergehen und damit eine automatische Segmen- tierung einer Äußerung keine triviale Aufgabe ist. So muss die durch Koartikulation entstan- dene Lautfolge „amontag“ zunächst auf Wortebene zu „am Montag“ segmentiert werden, bevor eine weitere Verarbeitung der Eingabe erfolgen kann. Der Mensch spricht auch „ohne Punkt und Komma“, so dass neben der Segmentierung auf Wortebene auch die Segmentierung auf Satzebene und die Erkennung des Satzmodus beim automatischen Sprachverstehen oftmals weitere Interpretationsunsicherheiten erzeugt. So kann die Wortfolge „So machen wir das vielleicht klappt es“ nach einer Satzsegmen- tierung beispielsweise in die beiden Aussagesätze „So machen wir das. Vielleicht klappt es.“ oder einer Aussage mit nachfolgender Frage „So machen wir das vielleicht. Klappt es?“ trans- formiert werden. Bei der automatischen Segmentierung auf Satzebene spielen die Satzmelodie, die Akzentuierung und der Sprechrhythmus als prosodische Merkmale eine wesentliche Rolle. Für praktische Alltagsanwendungen der Sprachtechnologie wie mobile Auskunftsdialoge über Mobilfunk oder Sprachdialoge mit dem Auto ist es notwendig, auch spontansprachliche Äußerungen bearbeiten zu können. Bei spontaner Rede, in der die Gedanken des Sprechers unvorbereitet und inkrementell in frei formulierte Sprache überführt werden, entstehen sehr häufig ungrammatische Äußerungen, Versprecher, Selbstkorrekturen, Wort- und Satzabbrüche sowie eine Fülle von Häsitationspartikeln wie „äh“ und „ähm“. Ein Sprachdialogsystem muss Spontansprache wie in „Wir treffen uns dann am Mon, äh, am Dienstag“ letztlich intern auf „Wir treffen uns dann am Dienstag“ abbilden, bevor eine weitere inhaltliche Verarbeitung des Dialogbeitrages erfolgen kann. Eine weitere Schwierigkeit bei der Computermodellierung von Dialogverstehen ergibt sich dadurch, dass sich Dialogpartner oft wechselseitig „ins Wort fallen“, sich Sprachsignale also überlappen (vgl. Abb. 4). Typisch ist bei Telefonauskunftssystemen, dass der Nutzer etwa eine lange Ansage des Systems, welche beispielsweise die Dialogoptionen mit einer synthetischen Stimme vorstellt, mit der Auswahl einer ihm passenden Option wie „Buchungsübersicht“ sprachlich unterbricht, bevor das System seinen Text vollständig gesprochen hat. Solche Un- terbrechungen eines Sprechers durch einen Dialogpartner sind in der Alltagskommunikation sehr häufig und führen meist zu effizienterer Dialogführung, auch wenn sie in bestimmten Si- tuationen als unhöflich gelten. Abb. 4 Überlappende Sprachäußerungen in spontansprachlichen Dialogen Um selbst einen menschlichen Dialogpartner jederzeit unterbrechen zu können, muss ein Com- putersystem dessen Eingaben schritthaltend analysieren und zu jedem Zeitpunkt einer Äuße- Nova Acta Leopoldina NF 110, Nr. 377, 119–141 (2011) Wolfgang Wahlster 124