Nova Acta Leopoldina Band 110 Nummer 377

Bei der konkatenativen Sprachsynthese werden aus großen annotierten Sprachdatenbanken zur Laufzeit die im Aussprachekontext geeignetsten Bausteine ausgewählt und zusammengesetzt. Dabei werden für jedes Wort eine Vielzahl von Sprachaufnahmen des gleichen Sprechers in ganz unterschiedlichen Betonungen und Satzpositionen benötigt. Dabei soll das originale Sprachsignal so wenig wie möglich manipuliert werden, indem das am besten passende Syn- thesesegment verwendet wird (vgl. Abb. 11). Bei einer solchen korpusbasierten Sprachsyn- these, wie sie heute in den meisten kommerziellen TTS-Systemen (Text-to-Speech-Systemen) angeboten wird, kann natürlich nur dann auf Wortebene konkateniert werden, wenn das zu sprechende Wort in der passenden Kontextvariante im Korpus gefunden wird. Sonst muss auf Subwort-Einheiten (z. B. Silben oder Phoneme) ausgewichen werden. Bei sehr großem Korpus und entsprechend viel verfügbarem schnellem Hauptspeicher zur Korpussuche ergibt sich eine hohe Natürlichkeit und eine gute Sprachqualität, die fast kaum noch von menschlichen Spre- chern zu unterscheiden ist. Abb. 11 Konkatenative Sprachsynthese als Selektion von Aussprachevarianten Da natürliche Sprachdialoge immer von anderen Kommunikationsmodalitäten wie Gestik, Mimik, Körperhaltung und oft auch von physischen Aktionen begleitet werden, wurde die Computermodellierung in den letzten 20 Jahren auch verstärkt auf multimodalen Dialog ver- allgemeinert. Dabei hat sich gezeigt, dass oft eine wechselseitige Disambiguierung multipler Eingabe- und Ausgabemodalitäten bei der Reduktion von Interpretationsunsicherheiten große Vorteile bietet. Im nächsten Abschnitt werden daher multimodale Dialogsysteme präsentiert. 4. Multimodale Mensch-Computer-Interaktion: Sprache, Gestik, Mimik und Agieren Bei der Computermodellierung multimodalen Dialogverhaltens müssen die Ergebnisse der akustischen und visuellen Analyse zur Sprach-, Gestik- und Mimikerkennung zu einer ge- meinsamen Bedeutungsrepräsentation zusammengeführt werden. Diesen Prozess nennt man multimodale Fusion (vgl. BUNT et al. 2005). Wichtig für die Fusionsverfahren ist, dass alle unimodalen Erkenner Konfidenzwerte für ihre Erkennungsresultate liefern. Die multimodale Fission bietet die inverse Funktionalität auf der Ausgabeseite, wobei zu- nächst für eine semantischen Repräsentation des vom System geplanten Dialogbeitrags eine Allokation der Informationseinheiten auf die verschiedenen Modalitäten und danach eine syn- chronisierte Ausgabe koordinierter Sprache, Gestik und Mimik realisiert werden muss. Man Nova Acta Leopoldina NF 110, Nr. 377, 119–141 (2011) Wolfgang Wahlster 132