Verständnisvolle Rechner

Die Computerlinguistik versucht mit Informatik und Sprachwissenschaften eine Annäherung zwischen Mensch und Maschine. Ein Hindernis bei der Kommunikation zwischen Mensch und Computer ist der vielfältige Wortschatz der menschlichen Sprachen

Keine Tastatur,keine Maus staubt dann mehr auf dem Schreibtisch

VON LUTZ DEBUS

Manche kennen noch die Szene aus dem Kult-Science-Fiction-Streifen „Dark Star“. Der Astronaut, dessen Aufgabe es ist, Sterne in die Luft zu jagen, unterhält sich mit der dafür notwendigen Bombe: „Bist du scharf?“ Die Bombe antwortet mit lasziver Frauenstimme: „Ich bin scharf!“ Das, was 1976 noch wie ein Märchen klang, ist heute teilweise schon Wirklichkeit. Längst muss sich der geplagte Anrufer von so genannten Service-Hotlines durch ein interaktives Programm wühlen, indem er deutlich Ziffern in den Hörer spricht. Aber dies ist erst der Anfang einer rasanten Entwicklung.

Computerlinguistik ist eine relativ unbekannte Wissenschaft. Sie erforscht die Grundlagen, die für die Weiterentwicklung solcher Spracherkennungssysteme benötigt werden. Ihre Geburtsstunde fällt zusammen mit der Geburtsstunde der Künstlichen Intelligenzforschung nach dem Ende des Zweiten Weltkriegs.

Federführend war die USA. Der Aufbau der Linguistik dort wurde, ähnlich wie die Vorläufer des Internets, ganz wesentlich durch Forschungsmittel des Verteidigungsministeriums finanziert. Inwieweit die Computerlinguistik nun dem Militär und Gemeimdiensten hilft, kann nur gemutmaßt werden. Das Durchsuchen riesiger Datenströme nach bestimmten Wortverbindungen ist seit dem 11.September 2001 zu einem Steckenpferd amerikanischer Sicherheitspolitik geworden.

Tibor Kiss ist Lehrstuhlinhaber für Computerlinguistik an der Ruhr-Universität Bochum. Am Anfang seiner Forschung steht die Beobachtung sprachlicher Daten in elektronischen Datenbanken. So hat er zum Beispiel alle Wörter gezählt, die die Neue Zürcher Zeitung in einem Jahrgang gebrauchte. Auf rund 1,2 Millionen verschiedene Wörter kam er dabei. So viele Wörter kann man einem Computer sicherlich beibringen. Aber Wörter werden ja nicht immer so geschrieben, wie man sie ausspricht. Im Englischen gibt es ein besonders schönes Beispiel. Warum wird das Wort „fish“ nicht „ghoti“ geschrieben? gh klingt wie das f in „enough“, o klingt wie das i in „women“ und ti klingt wie das sh in „nation“ Laute können in verschiedenen Kontexten also ganz unterschiedlich geschrieben werden.

Bei der digitalen Spracherkennung wird statistisch ermittelt, welches Wort wahrscheinlich auf zwei vorangegangenen Wörtern folgt. Hier muss der Computer schon eine gewisse Datenmenge bewältigen. Im Falle des Wortschatzes der Neuen Zürcher Zeitung wären es 1,2 Millionen mal 1,2 Millionen mal 1,2 Millionen Wörter. Das Ergebnis dieser Rechnung ist leicht: 1.728 Billiarden Wörter müssen in eine statistische Beziehung gesetzt werden. Systematisierung, die ein Computer nun einmal braucht, ist bei einer lebendigen dynamischen Sprache sehr komplex.

Selbst superschnelle Rechner sind mit solchen Datenmengen heutzutage noch überfordert. Also verwundert es nicht, dass bislang Spracherkennungsprogramme nur dort wirklich erfolgreich funktionieren, wo die Anwender über einen sehr eingeschränkten Wortschatz verfügen. Die erste elektronische Spracherkennung wurde für Radiologen entwickelt. Es folgten Programme für Rechtsanwaltspraxen. In etwa zwei bis drei Monaten hat ein Computer „his Master’s Voice“ gelernt, macht kaum noch Fehler.

Aber nicht nur Schreibkräfte von Juristen und Ärzten müssen um ihre Jobs fürchten. Ein zweiter wichtiger Anwendungsbereich der Computerlinguistik ist die Übersetzung. Die babylonisch anmutende europäische Sprachverwirrung, unter denen die EU leidet, erfordert einen riesigen Apparat von Übersetzern. Die EU hat deshalb in den letzten 25 Jahren die Forschung für elektronische Übersetzungsprogramme gefördert.

Das Verständigungsproblem wird sich durch die Osterweiterung noch verschärfen. 20 Sprachen multipliziert mit den schon erwähnten 1,2 Millionen Wörtern, dies überfordert nicht nur manche Parlamentsdebatte, sondern auch leistungsstarke Computersysteme.

Auch hier funktioniert die digitale Übersetzung am ehesten bei eingegrenzten Spezialgebieten, also bei Fangquoten oder Verpackungsverordnungen. Erschwerend kommt hinzu, dass auch die Bedeutung eines Wortes schillernd ist und eine direkte Übersetzung nicht immer den Sinn korrekt wiedergibt. Sind grüne Heringe wirklich grün? In Lettland oder Portugal mag so eine direkte Übersetzung aus dem Deutschen Verwunderung auslösen. Computerprogramme müssen mit Synonymen, mit Wortspielen und Metaphern, mit Mehrdeutigkeiten umgehen können.

Ein nächster Schritt wird der verbal kommunizierende Computer sein. Sprachdialogsysteme, wie sie die kleine, süße Bombe 20 bei „Dark Star“ bereits besitzt, werden in Zukunft diese Informationsgesellschaft revolutionieren. Keine Tastatur, keine Maus staubt dann mehr auf dem Schreibtisch. Wir werden mit Knopf im Ohr und Knopf am Kragen Teil eines großen Rechenzentrums namens Menschheit sein. Sehr praktisch ist das sicherlich, aber ob das wirklich scharf macht?