Nova Acta Leopoldina Band 110 Nummer 377

Das System wird seit 2006 als Dauerexponat des Deutschen Museums in München im zu- sammenhang mit dem Deutschen zukunftspreis von den Museumsbesuchern benutzt. Ligabot greift über Internet auf die neuesten Ergebnisse und den Spielplan der Bundesliga zu und setzt diese in umgangssprachlich formulierte Antworten um. Das Dialogsystem kann in der be- schränkten Diskursdomäne auch auf viele idiomatische Formulierungen wie „Wer hat die rote Laterne?“ oder „Wie haben die Königsblauen gespielt?“ korrekt antworten. Hierbei werden die Dialogbeiträge des virtuellen Gesprächspartners durch passende Mimik und Gestik unter- stützt, und eine intelligente Kameraführung in einem 3D-Modell des Münchner Fußballsta- dions erhöht die Natürlichkeit der Gesprächssituation. Ligabot zeigt, dass natürliche Dialoge mit virtuellen Gesprächspartnern mit den aktuellen Computermodellen über ein eingeschränk- tes Themenfeld in hoher Qualität und Robustheit möglich sind. Ligabot versteht aber überhaupt nichts außerhalb der Fußballdomäne. Die Beschränkung der Domäne wird im Gegenteil beim Sprachverstehen genutzt, um die Interpretationsunsicherheiten drastisch zu reduzieren. Es hat sich herausgestellt, dass eine kombinierte Sprach- und Gestikverarbeitung die Ro- bustheit von Dialogsystemen erhöht. Wenn man den akustischen Kanal mit einem Videokanal verbindet und die Analyseergebnisse einer Fusion unterwirft, wird die Disambiguierung oft- mals erheblich vereinfacht. So erhöht sich die Robustheit von Spracherkennern bei gestörtem Sprachsignal und niedriger Worterkennungsrate durch gleichzeitiges Lippenlesen. Durch eine Kombination von Spracherkennung und Prosodieanalyse konnte im Verbmobil-System sowohl eine verbesserte lexikalische als auch syntaktische Disambiguierung von Dialogbeiträgen er- reicht werden. Im SmartKom-System (vgl. WAHLSTER 2006) wurden die referenzsemantische Disambiguierung und die Aufmerksamkeitssteuerung durch die kombinierte Sprach- und Ges- tikerkennung wesentlich verbessert. Durch die Kombination von Spracherkennung und Mimikerkennung wurde im SmartKom- System erstmals sogar die Erkennung von Ironie möglich. Dort kann die gleiche Sprachein- gabe des Benutzers je nach dem klassifizierten Gesichtsausdruck (ärgerlich versus neutral), der über ein Mustererkennungsverfahren aus den Daten einer Gesichtskamera analysiert wird, zu einer ironischen oder nicht-ironischen Interpretation einer äußerung führen. Wichtig ist die Erkenntnis, dass nicht nur die Sprache durch die Gestik und Mimik disam- biguiert werden kann, sondern auch umgekehrt eine mehrdeutige Geste oder ein unklarer Ge- sichtsausdruck durch die damit kombinierte sprachliche äußerung auf eine eindeutige Bedeutungsrepräsentation abgebildet werden kann. Deiktische Referenzen durch sprachbe- gleitende Gesten, die über eine Kamera erfasst werden, können sich beispielsweise im Smart- Kom-System auf dynamisch generierte Visualisierungen beziehen (vgl. Abb. 14). Dabei kann die Geste selbst keine eindeutige Objektreferenz liefern, sondern nur die sprachliche Formulierung „Den Film“ versetzt das System in die Lage „Matrix: Reloaded“ als intendiertes Diskursobjekt zu identifizieren (es könnte ja u. a. auch der Buchstabe „d“ ge- wesen sein). Beim Beispiel der Sitzplatzauswahl in Abbildung 14 wird die vage Referenz einer umkreisenden Geste erst durch die Formulierung „drei Sitze“ eindeutig und durch eine visuelle Rückkopplung an den Benutzer durch grüne Kreuze vom System bestätigt. In etwas verein- fachter Form können solche mit Spracheingaben kombinierten Gesten auch ohne Bildauswer- tung einfach durch Fingerberührung kapazitiver Tastbildschirme von modernen Mobiltelefonen erfolgen. Wenn Hände des Benutzers durch direktes Greifen und Ablegen von RFID-instrumentier- ten Objekten in ihrer Umgebung (z. B. ein intelligentes Regal mit Leseantennen, die feststellen, wann ein Objekt mit einem Radio Frequency Identification (RFID)-Chip entfernt wird) eine Nova Acta Leopoldina NF 110, Nr. 377, 119–141 (2011) Wolfgang Wahlster 134