Automatische Sprachanalyse: IT und Sprache – ist der Code geknackt?

Automatische Sprachanalyse IT und Sprache – ist der Code geknackt?

10.11.2017 - 10:55 Uhr

IdeenwerkBW-Schwerpunkt IT und Sprache (1): Der Tübinger Computerlinguist Detmar Meurers beschreibt die heutigen Möglichkeiten und Grenzen bei der automatischen Sprachanalyse.

Susanne Roeder

10.11.2017 - 10:55 Uhr

Tübingen - „Siri, wie wird das Wetter morgen?“ „Alexa, mach mal das Radio an.“ Von sprachgesteuerten Helfern auf dem Handy oder im Haus zu automatisierten Bots, die in den sozialen Netzwerken posten und damit möglicherweise sogar Auswirkungen auf Wahlen haben – immer häufiger reden wir mit Computern, sie filtern Werbetexte aus unseren Emails heraus und helfen Geheimdiensten, Hinweise in Milliarden von Emails zu finden. Die rasante Entwicklung, birgt naturgemäß gute wie bedrohliche Aspekte. Schlimmstenfalls bewahrheiten sich Horrorvisionen wie im Bestseller „The Circle“, sind die Menschen und die Zivilisation bedroht.

Das äußerst komplexe Konstrukt Sprache ist eine gewaltige Herausforderung für den Computer. Denn im Gegensatz zum Menschen hat ein Computer keine eigenen, jahrelangen Erfahrungen mit der Welt gemacht und verlässt sich daher ganz auf die Daten, mit denen er gefüttert.

IT und Sprache braucht Interpretation im Kontext

Zur Analyse von Sprache reicht Wortschatz allein bei weitem nicht; es kommt auf die Vernetzung an, auf die Interpretation im Kontext. Der Tübinger Computerlinguist Detmar Meurers nennt drei Komponenten, die ein Computersystem zur Interpretation von Sprache erfassen muss: Einerseits die Sprache als grammatisches System, also wie etwas ausgedrückt werden kann. Andererseits die Funktion, also was in einem gegebenen Kontext mit dem Geäußerten beabsichtigt ist. Und schließlich wer da spricht oder schreibt, denn was man über einen Sprecher weiß, fließt in die Interpretation ein. Die drei Bestandteile bei der computerlinguistischen Analyse besser zu integrieren, ist ein Ziel seiner Arbeit.

Ein Paradigmenwechsel von der generativen Linguistik zur empirischen, datengetriebenen Analyse hat in den letzten Jahren substanziell die Entwicklung computerlinguistischer Anwendungen gefördert. Das heißt, weg von einer exklusiven Fokussierung auf die Theorie des Sprachsystems hin zu einer Analyse großer Mengen von repräsentativen Sprachdaten.

Zum Beispiel untersuchen Meurers und sein Team den Spracherwerb anhand von 1.2 Millionen Texten von Sprachlernern in der EF Cambridge Open Language Database, und zeigen, dass für eine valide Interpretation der Daten die Aufgaben, in denen sie erhoben wurden und Faktoren wie die Muttersprache des Lerners berücksichtigt werden müssen. Auf einer solchen Grundlage kann ein Sprachlernsystem wie das an seinem Lehrstuhl entwickelte FeedBook interaktives Feedback für Schüler bei den Englischhausaufgaben bieten.

Statistische Modelle von Sprache, wie sie bei Google und Co für die automatische Übersetzung oder in Dialogsystemen verwendet werden, sind „stark davon beeinflusst, auf welchen Sprachdaten sie trainiert wurden“, erläutert Meurers. Das erklärt auch, warum und wie der Social Bot ‚Tay‘, ein Software-Roboter von Microsoft vom „Hipstermädchen zum Hitlerbot“ werden konnte, wie Spiegel online titelte.

Ein Sprachroboter ist nur so gut wie das Trainingsmaterial

Eigentlich sollte Tay einfach nur liken, retweeten, kommentieren und sich im Dialog mit Menschen menschliche Züge aneignen, also möglichst nicht mehr als Bot erkannt werden.

Microsoft hatte dabei nicht bedacht, dass manche Menschen mit dem Ziel ans Werk gehen würden, diesen Bot mit Sprachmaterial zu füttern, das nur eine ganz bestimmte Teilmenge von sozialer Interaktion darstellt, nämlich die sexistischer Nazis. Binnen 24 Stunden hatte sich Tay angepasst. Das heißt: Der sprachliche Input des Bots wurde systematische manipuliert von einer bestimmten Gruppe. Deren Sprachmuster hat Tay gesammelt und natürlich unreflektiert nachgeplappert.

Die Moral von Tay: Wenn wir Computersysteme auf Beispielen trainieren, müssen wir uns der Verantwortung bewusst sein, die aus der Auswahl des Trainingsmaterials erwächst. Ein Bot reflektiert nicht, erkennt keine Intentionen, sondern adaptiert und agiert seelenlos mechanisch. Auf welchen Daten trainiert wird, bestimmt das Verhalten des Systems.

Lernen aus Beispielen

Daten und Statistik sind die Basis, auf der IT und Sprache im Wesentlichen funktioniert. „Ein statistisches Sprachmodell liefert wahrscheinliche Äußerungen“, so Meurers. Dadurch kommt es bei automatischen Übersetzungen bisweilen zu verräterischen Konstellationen, wie Meurers schmunzelnd verrät: „Wenn man bis vor kurzem ‚Mag ich‘ in Google Translate übersetzten ließ, so wurde bis vor kurzem die englische Übersetzung ‚This website is good‘ geliefert.

Die Übersetzung zeigt, dass das System auf Daten aus dem Internet trainiert wurde und dort eben am häufigsten Webseiten gemocht werden – während für Menschen allgemein, also auch in Sprachdaten aus anderen Kontexten, Webseiten wohl nicht das Erste wären, was einem bei ‚Was magst Du?‘ einfallen würde. Das zeigt, wie schwierig bei IT und Sprache die Abgrenzung zwischen dem Sprachsystem an sich und einer typischen Verwendung von Sprache fällt.

So übersetzt Google Translate auch weiterhin „How to can tuna for a living“ ins Deutsche als „Wie kann Thunfisch für einen Lebensunterhalt“. Hier geht in der Datenfülle unter, dass „können“ zwar die häufigste Übsetzung von „can“ ist, aber Thunfisch in Dosen zu stecken trotzdem im englischen Sprachsystem möglich ist und hier die richtige Übersetzung wäre.

Sprachliche Strukturen sind unterbelichtet

Mit Blick auf die Zukunft konstatiert Meurers, dass auch bei IT und Sprache „bislang nicht genug sprachliche Strukturen von den statistischen Analysen berücksichtigt werden.“ Häufig werde nicht berücksichtigt, welches Wort sich auf welches bezieht. „Wenn die Übersetzung von ‚Der Ausstieg aus der Kernenergie ist alternativlos.‘ als ‚The exit from nuclear energy is no alternative.‘ herauskommt, so ist das Problem nicht die richtige Übersetzung einzelner Wörter, sondern das, was sich hier auf was bezieht.“

Sogenannte Parser können Dependenzen erkennen, also beispielsweise, von welchem Verb ein Subjekt oder Objekt abhängt. „In den 1990erJahren, als wir solche Programme schrieben, konnte ein Parser schon mal eine Minute brauchen – pro Satz. Mittlerweile können sie tausende von Wörtern pro Sekunde analysieren“, beschreibt Meurers den rasanten Fortschritt der Sprachverarbeitung mit dem Computer.

Neben dieser stärker strukturierten Sicht auf Sprache sieht der Wissenschaftler einen wichtigen Trend der Forschung darin, mit Methoden des „Deep Learning“ immer mehr elaborierte Aufgaben anhand von Beispielen komplett zu trainieren, also eine Fortführung des maschinellem Lernens.

Die Algorithmen haben Grenzen

Grenzen von IT und Sprache ergeben sich oft aus einer reduzierten Repräsentation des zu lösenden Problems, etwa die Bewertung von Aufsätzen. Der Mensch liest nicht nur die Worte und stellt fest, welche vorkommen, sondern er überlegt sich, was der Text bedeutet oder sagen will. Aktuelle Systeme, die Aufsätze bewerten, funktionieren laut Meurers völlig anders: „Die werfen alle Wörter einfach in eine Tasche – ohne jegliche Struktur. Dann nimmt das System eine Menge von Wörtern und vergleicht sie mit einer anderen Menge von Wörtern. An dieser Stelle kommt überwachtes maschinelles Lernen ins Spiel: Man lässt Lehrer gute und schlechte Aufsätze bewerten. Jeder Aufsatz wird dann als eine Tasche voller Wörter betrachtet und mit der entsprechenden Expertenbewertung beschriftet.“

Ist das System auf dieser Grundlage trainiert, so kann es für einen neuen Aufsatz automatisch die ähnlichsten Aufsätze heraussuchen und hat dann eine Bewertung. Es gebe Systeme, die Aufsätze mit dieser Methode automatisch benoten können, wenn genügend Aufsätze vorliegen, die im Vorfeld von Menschen bewertet wurden.

Nimmt man allerdings nur zwei oder drei Sätze und versucht, alle Wörter zusammen in eine Tasche zu werfen, dann „tut es so nicht mehr“, weiß Meurers. „Sie brauchen jetzt mehr Struktur, die Abhängigkeiten zwischen Wörtern und müssen berücksichtigen, was die zu beantwortende Frage eigentlich konkret erfragt statt einfach nur Wörter draufloszusprudeln.“

Ein Forschungsprojekt, mit dem Meurers sich seit einigen Jahren beschäftigt, untersucht daher, wann eine Frage eigentlich beantwortet ist und wie Eigenschaften von Frage, Antwort, und dem zu lesenden Text hierbei zusammenspielen. Dazu müsse man deutlich mehr linguistische Analyse betreiben, habe aber trotzdem noch jede Menge Beispieldaten. „Wir versuchen diese zwei Welten zu verbinden, nämlich die Welt der Theorie von Sprache plus massenweise Beispiele.“

Der Computerlinguist Detmar Meurers

Computerlinguistik, der Schlüssel für IT und Sprache, ist ein relativ neues Forschungsfeld in der Linguistik. Als der gebürtige Rheinländer Ende der 1980er Jahre gezielt nach Tübingen kam, um Linguistik, Informatik und Psychologie zu studieren, gab es die Computerlinguistik noch nicht als Fach. In Tübingen stellte man sich frühzeitig die Frage, wie ergänzend zur Theorie eigentlich authentische sprachliche Daten aussehen und wie sie durch die präziseren linguistischen Analysen angereichert werden können. Nach acht Jahren als Professor an der Ohio State University in den USA kehrte Meurers im Jahr 2008 an seine Alma Mater zurück.

Ein Schwerpunkt seiner Arbeit liegt im Exzellenz-Graduiertenkolleg und Forschungsnetzwerk LEAD (Learning, Educational Achievement, and Life Course Development), wo er für den Bereich Sprache zuständig ist und Grundlagenfragen zum Spracherwerb sowie Sprache in der Bildung mit der Entwicklung von Anwendungen verbindet. Neben dem interaktiven Workbook „FeedBook“ für den Englischunterricht ist dies zum Beispiel die Suchmaschine FLAIR, die Lehrer dabei unterstützt, Texte zu finden, die in puncto Sprachniveau und des zu lernenden Inhaltes an die Fähigkeiten der jeweiligen Lerner angepasst sind.

IT und Sprache – ist der Code geknackt?