Garbage In, Garbage Out – das gilt auch für Maschinelle Übersetzung

Blog-Beitrag vom 16.01.2018

Seit den 60er Jahren, in denen für das US-Militär das erste maschinelle Russisch-Englisch-Übersetzungsprogramm entwickelt wurde, beschäftigen sich Sprachwissenschaftler, Informatiker und Computerlinguisten mit dem Thema der Maschinellen Übersetzung (MÜ). Man sollte meinen, dass nach einem halben Jahrhundert Forschung ein MÜ-System vorliegen könnte, das annähernd dazu in der Lage ist, einen menschlichen Übersetzer zu ersetzen. Und trotzdem: Als Computerlinguistin werde ich häufig gefragt, ob ich denn „dieses blöde Google Translate“ nicht besser machen könnte. Die Antwort lautet nein. Erstens, weil ich nicht bei Google arbeite, und zweitens, weil ich Google Translate gar nicht schlecht finde. Ganz im Gegenteil. Wenn man bedenkt, dass dahinter nur eine Maschine – und eben kein Mensch – steckt, finde ich die Ergebnisse teilweise sogar beeindruckend gut.

Nach einem dreijährigen Übersetzungsstudium weiß ich außerdem, dass Übersetzen gar nicht so einfach ist. Man benötigt viel Kontext, Erfahrung und Weltwissen, um eine wirklich gute Übersetzung anzufertigen. Ein schlechter Quelltext darf dabei auch keine Ausrede für eine schlechte Übersetzung sein. Als Übersetzer sollte man dazu in der Lage sein, eine gute Übersetzung anzufertigen, auch wenn der Quelltext sprachlich mehr als fragwürdig ist. Aber kann man dasselbe auch von einer Maschine erwarten?

Anstatt sich über vermeintlich schlechte MÜ-Systeme aufzuregen, sollte man sich vielleicht an die eigene Nase fassen. Mit welchen Texten füttere ich das System? Sind die Sätze lang und verschachtelt? Befinden sich im Text mehrdeutige Konstruktionen oder gar sprachliche Fehler? All das kann sich auf die Qualität der Übersetzung auswirken, wie die folgenden drei Beispiele zeigen sollen.

Sprachliche Korrektheit

Die sprachliche Korrektheit eines Texts kann erheblichen Einfluss auf die Qualität der MÜ-Ergebnisse haben. Das gilt auch für kleine Fehler, die jedem einmal passieren können, wie beispielsweise Fehler in der Groß- und Kleinschreibung oder Getrennt- und Zusammenschreibung. Wer hat schon alle Regeln der neuesten Rechtschreibung im Kopf?

Schreibt man beispielsweise das Wort „handhaben“ (im Sinne von „betätigen“) fälschlicherweise auseinander, also „hand haben“, kann dies Probleme bei der Maschinellen Übersetzung hervorrufen.
 

Wie auf der Abbildung zu sehen ist, wurde der Satz „Mechanische Schaltung korrekt hand haben“ ins Französische nicht korrekt übersetzt, und zwar zu „Avoir un circuit mécanique correctement à la main“. Diese wortwörtliche Übersetzung ergibt im Französischen schlichtweg keinen Sinn. Gibt man den zu übersetzenden Satz „Mechanische Schaltung korrekt handhaben“ allerdings korrekt ein, stimmt auch die Übersetzung. Diese lautet dann „Manipulez le circuit mécanique correctement“. Dasselbe Phänomen tritt übrigens auch bei den Übersetzungen der beiden Sätze ins Englische oder Italienische auf. Probieren Sie es gerne selbst aus!

Mehrdeutigkeit

Auch sprachliche Mehrdeutigkeit kann für MÜ-Systeme eine Falle darstellen. Während ein menschlicher Übersetzer Mehrdeutigkeiten durch Erfahrung, Kontext oder Weltwissen auflösen kann, ist dies für ein MÜ-System quasi nicht möglich. Der Satz „Der Mann sah das Mädel mit dem Fernrohr“ enthält eine solche Mehrdeutigkeit. Entweder der Mann schaut durch ein Fernrohr oder das Mädel hält ein Fernrohr in der Hand. Welche der beiden Deutungen korrekt ist, weiß man nur, wenn man den Kontext um den Satz herum kennt. Für MÜ-Systeme sind solche rein semantischen Analysen jedoch schwierig.

Ein im Bereich der Technischen Dokumentation realistischeres Beispiel ist der folgende Satz: „Stecken Sie das Kabel oben aus“. Auch dieser Satz ist mehrdeutig. Die zwei möglichen Deutungen sind (1) „Stecken Sie das obere Kabel aus“ oder (2) „Stecken Sie das Kabel am oberen Ende aus“. Da es nicht möglich ist, den Satz im Englischen ebenfalls mehrdeutig wiederzugeben, entscheidet sich Google Translate für die zweite Variante und übersetzt den Satz zu „Unplug the cable at the top“. In dem Fall, dass der Autor des deutschen Satzes jedoch die erste Variante gemeint haben sollte, handelt es sich dabei um eine nicht sinngemäße Übersetzung ins Englische. Deshalb sind Mehrdeutigkeiten in jedem Fall zu vermeiden.

Satzbau und Komplexität

Auch der Satzbau, die Satzlänge und die Komplexität eines Satzes können den Verarbeitungsprozess eines Satzes durch ein MÜ-System erschweren. Lange und komplexe Sätze sind nicht nur für das menschliche Gehirn viel schwieriger zu verarbeiten als kurze und einfache Sätze, sondern auch für eine Maschine. Die Komplexität eines Satzes misst sich beispielsweise an der Verschachtelung, an der Anzahl der Nebensätze und am Abstand zwischen den Verbteilen.

Um dies zu verdeutlichen, habe ich mir einen sehr verschachtelten Satz über einen Bäcker ausgedacht (siehe Abbildung) und diesen ebenfalls von Google Translate übersetzen lassen. Der Satz lautet folgendermaßen:

„Der Bäcker hat drei Jahre vor seiner Ausbildung, als er 13 Jahre alt war, ein Brötchen, das aussah wie Boris Becker und deshalb kurz darauf auf eBay für viel Geld von einem Mann ersteigert wurde, der es seiner Tochter, die in Boris Becker verliebt war, geschenkt hat, gebacken.“

Ins Italienische wurde der Satz dann folgendermaßen übersetzt:

„Tre anni prima del suo apprendistato, quando aveva 13 anni, il fornaio aveva un rotolo che assomigliava a Boris Becker e fu acquistato su eBay per un sacco di soldi da un uomo, sua figlia, che era innamorata di Boris Becker, dato, cotto.“

Diese Übersetzung ist grammatisch nicht korrekt und ergibt keinen Sinn. Wenn man den Satz zurück ins Deutsche übersetzen lässt, wird die arme Tochter am Ende des Satzes sogar gekocht:

„Drei Jahre vor seiner Lehre, als er 13 war, hatte der Bäcker eine Rolle, die aussah wie Boris Becker und wurde bei eBay für viel Geld von einem Mann gekauft, dessen Tochter, die in Boris Becker verliebt war, gekocht wurde.“

Vermindert man allerdings die Komplexität im deutschen Ausgangssatz, indem man beispielsweise mehrere kürzere Sätze daraus macht, sieht die Übersetzung schon viel besser aus:

„Tre anni prima della sua educazione, quando aveva 13 anni, il fornaio preparava un panino. Sembrava Boris Becker ed è stato quindi acquistato su eBay per un sacco di soldi. Fu comprato da un uomo che lo diede a sua figlia, che era innamorata di Boris Becker.“

Die Übersetzung des überarbeiteten Satzes ist nun sinngemäß und sprachlich korrekt.

Fazit

Die Qualität des Quelltexts hat erheblichen Einfluss auf die Qualität der Übersetzung durch ein MÜ-System. Sprachliche Fehler, Mehrdeutigkeiten und komplexe Konstruktionen im Quelltext können im Zieltext schwere Sinnfehler hervorrufen und sind deshalb in jedem Fall zu vermeiden.

Autorenunterstützungssysteme wie der Congree Authoring Server können dabei helfen, genau diese Arten von Fehlern zu unterbinden. Die linguistische Congree-Sprachprüfung überprüft Texte unter anderem in den Kategorien Rechtschreibung, Grammatik und Stil. Dadurch ist es möglich, Texte auf sprachliche Korrektheit, auf mehrdeutige Konstruktionen sowie auf zu lange und zu komplexe Sätze zu überprüfen. Wenn Sie Ihre Texte einer derartigen Sprachprüfung unterziehen, wird es Ihnen am Ende des Tages nicht nur der Leser danken, sondern jedes MÜ-System, von dem Sie Ihre Texte übersetzen lassen. Und Sie können sich über qualitativ hochwertige MÜ-Ergebnisse freuen.

tl;dr

Wenn Texte mit einem MÜ-System übersetzt werden, kann man die Übersetzungsqualität enorm steigern, indem man bereits die Quelltexte sprachlich optimiert. Dies kann z. B. mittels einer Software zur Autorenunterstützung geschehen.