Please activate JavaScript!
Please install Adobe Flash Player, click here for download

Nova Acta Leopoldina Band 110 Nummer 377

Lernverfahren trainiert werden. Dabei entscheiden heute hauptsächlich der Umfang und die Güte der Annotationen der zum Training verwendeten Datensammlungen über die Qualität des Spracherkenners. Diese Datensammlungen enthalten vielfältig annotierte Sprachsignale, um u. a. die prosodisch markierten Satzgrenzen und Dialogakte auf der Basis gelernter pro- babilistischer Verfahren erkennen zu können. In Verbmobil haben wir eine der weltweit größ- ten und sehr feingranular annotierten Datensammlungen von 21,5 GB mit 1685 Sprechern und 3200 Dialogen erstellt. Bisher stellen solche Datensammlungen als Grundlage der maschinel- len Lernverfahren hohe Arbeitsaufwände dar, da die meisten Annotationen im besten Falle semi-automatisch erstellt werden können. Für die Sprachanalyse kann man heute auf eine große Auswahl von formalen Grammatiken weitverbreiteter Sprachen wie Englisch, Deutsch und Französisch zurückgreifen, die mithilfe von für den jeweiligen Grammatikformalismus geeigneten Parsern für die syntaktische Ana- lyse der wahrscheinlichsten Pfade in Worthypothesen benutzt werden. Dabei entstehen im Gegensatz zur sehr einfachen Syntaxanalyse von künstlichen Sprachen wie den Programmiersprachen für Computer allerdings durch die große Variabilität in der Syntax natürlicher Sprachen, deren Kontextsensitivität sowie durch die Vielzahl elliptischer Konstruktionen, Selbsteinbettungen, lokaler Umstellungen und Fernabhängigkeiten heraus- fordernde Komplexitätsprobleme (vgl.Abb. 10). Während ein Parser für kontextfreie Sprachen nur O(n3 ) Verarbeitungsschritte für eine Syntaxanalyse benötigt, muss man für die schwach kontextfreien Baumadjunktionssprachen, die als einer der ausdrucksstärkeren Grammatikfor- malismen für natürliche Sprachen geeignet sind, bereits O(n5 ) Rechenschritte bei der Syntax- analyse aufwenden, wobei n die Länge des eingegebenen Satzes ist. Mit den Dingen sprechen: Autos, Roboter und Weinflaschen als Dialogpartner? Nova Acta Leopoldina NF 110, Nr. 377, 119–141 (2011) 129 Abb. 9 Worthypothesengraph für „Dann möchte ich doch lieber ins Kino gehen“