Schreibregeln für die maschinelle Übersetzung

Blog-Beitrag vom 22.09.2020

Der Einsatz von maschineller Übersetzung (MÜ) innerhalb des Übersetzungsprozesses der technischen Dokumentation kann ein Anreiz sein, bestehende Prozesse in der Übersetzung zu optimieren. Die technische Dokumentation eignet sich durch ihre klare Struktur und einfache Sprache besonders gut, maschinell übersetzt zu werden. Damit der Einsatz der maschinellen Übersetzung innerhalb der Dokumentationsübersetzung funktioniert, reicht es nicht aus, die bestehenden Satzstrukturen eins zu eins von der Ausgangs- in die Zielsprache zu überführen. Vielmehr muss die Sprache und Struktur der Texte auf die Besonderheiten der maschinellen Übersetzung angepasst werden, damit Mensch und Maschine gleichermaßen mit den erstellten Texten umgehen können.

Warum Schreibregeln für MÜ anpassen?

In vielen Redaktionen gibt es bereits ein Regelwerk in Form eines Redaktionsleitfadens, der den Redakteuren zur Verfügung steht und nach dem die technische Dokumentation erstellt wird. Basis vieler dieser Leitfäden sind Branchen-übliche Empfehlungen, wie der Leitfaden „Regelbasiertes Schreiben – Deutsch für die Technische Kommunikation“ der tekom. Der Redakteur hat damit feste Vorgaben, wie er Überschriften, Anweisungen, Abkürzungen und andere Satzstrukturen bei der Erstellung der Dokumentation zur verwenden hat. Auch wenn Empfehlungen zum übersetzungsgerechten Schreiben und zur Übersetzung mit Computer­Aided­Translation (CAT)-Tools einen Teil dieser Leitfäden ausmachen können, liegt der Schwerpunkt auf der Erstellung von zielgruppengerechten Texten, die an einen menschlichen Leser adressiert sind. Die maschinelle Verarbeitung wird oft nicht berücksichtigt. Dabei ist es wichtig, dass bereits bei der Erstellung die Dokumentation so verfasst wird, dass nicht nur ein Mensch, sondern auch eine Maschine den Inhalt verstehen und verarbeiten kann.

 CAT-Tools und Übersetzungsspeicher wie Translation Memorys segmentieren Sätze und machen es möglich, vorhandene Übersetzungen ohne Kontext wiederzuverwenden. Das bringt für die Übersetzung technischer Dokumentation das Problem mit sich, dass es zu Inkonsistenzen, Mehrdeutigkeiten und problematischen sprachlichen Textstrukturen kommen kann. Auf diese Weise kann es zu einer schlechteren Verständlichkeit und Umsetzbarkeit technischer Dokumentation kommen.

 Wo ein Mensch in der Lage ist, kleinere Logiklücken oder Sprachfehler zu kompensieren, zum Beispiel durch Einbringen von eigenem Wissen oder Erfahrungen, sind Maschinen deutlich eingeschränkter. Im Vergleich zum Menschen arbeitet die Maschine, egal ob CAT oder MÜ, bei der Erkennung von Texten mit festgelegten Mustern, die oft auf einem bilingualen Korpus, grammatikalischen Regeln oder mathematischen Berechnungen und Wahrscheinlichkeiten aufbauen. Abweichungen in den Texten sowie auch Schreibfehler führen dazu, dass die Erkennung nicht mehr richtig funktioniert und unnötige Variationen und Fehler auftreten.

Durch die unterschiedliche Art, wie Mensch und Maschine mit Texten umgehen, ist es wichtig zu prüfen, ob die eigenen Schreibregeln auch eine spätere maschinelle Verarbeitbarkeit ermöglichen.

Mögliche Probleme und Regeln für die maschinelle Übersetzung – Beispiel Bezüge

Betrachtet man den vor einem liegenden Text aus einer anderen Perspektive, nämlich der einer Maschine, die sich Satz für Satz ansieht und dabei vielleicht auch nur einen Satz für sich gestellt analysiert, fällt auf, dass die Bezüge zwischen Sätzen oder innerhalb eines Satzes ein großes Problem darstellen können. Obwohl in vielen Übersetzungs- und Redaktionsleitfäden die Verwendung von Pronomen über die Satzgrenzen hinweg verboten ist, kommen solche Konstruktionen in vielen Texten dennoch vor. Natürlich ist es für den menschlichen Leser angenehmer, wenn statt einer Wiederholung des Subjekts im folgenden Satz nur ein Pronomen verwendet wird. Bei einer maschinellen Übersetzung können solche Konstruktionen dazu führen, dass zwar das Pronomen erkannt wird, aber nicht unbedingt in der richtigen Form, was spätestens bei der Rückübersetzung verdeutlicht wird. Das folgende Beispiel soll einen solchen Fall zeigen:

Übersetzung von DE nach EN mit Google Translator:

  1. Auf einem Podest neben der Maschinenverkleidung steht ein Klimagerät. Dieses filtriert die angesaugte Umgebungsluft vor und entfeuchtet sie.
  2. An air conditioner stands on a platform next to the machine cladding. This pre-filters the sucked in ambient air and dehumidifies it.

Rückübersetzung von EN nach DE mit Google Translator:

  1. An air conditioner stands on a platform next to the machine cladding. This pre-filters the sucked in ambient air and dehumidifies it.
  2. Eine Klimaanlage steht auf einer Plattform neben der Maschinenverkleidung. Dadurch wird die angesaugte Umgebungsluft vorgefiltert und entfeuchtet.

“Dieses“ aus DE wird zu „this“ in EN, was in der Rückübersetzung nicht mehr mit „dieses“, sondern zusammen mit „it“ zu ‚dadurch wird‘ übersetzt wird. Die Bedeutung wird dadurch verfälscht.

Wird zum Beispiel aus dem Englischen übersetzt, wo gerne das Pronomen „it“ verwendet wird, das allerdings allein im Deutschen mehrere Formen annehmen kann („es“, „das“, „solche“, usw.), ist es sehr wahrscheinlich, je nach dem vorliegenden Trainings-Material und der Art des MÜ (statistisch, neuronal oder regelbasiert), dass bei einer Übersetzung die falsche Form gewählt werden kann. Zudem gibt es Sprachen, wie Polnisch, Slowakisch und Tschechisch, in denen automatisch das Subjekt anstatt des Pronomens eingesetzt wird, da die Verwendung von Pronomen entweder unüblich oder nicht möglich ist. Jedoch tritt dieses Problem nicht nur dann auf, wenn Pronomen über Satzgrenzen hinaus verwendet werden, sondern kann auch bereits innerhalb eines Satzes für Probleme sorgen, wie im folgenden maschinenübersetzten Beispiel zu sehen ist:

„Lisa hat Lasagne gemacht, sie ist schon im Ofen“ (Burchardt et al. (2017), S. 161)

  • Google: "Lisa made lasagne, she’s already in the oven."   
  • DeepL: "Lisa made lasagne. It’s already in the oven."
  • Microsoft: "Lisa has made lasagne, she is already in the oven."

Natürlich wird im Ausgangstext kein Mensch in den Ofen geschoben, was für eine Maschine, die zur Übersetzung nur mit dem Pronomen „sie“ arbeiten kann, allerdings nicht klar ersichtlich ist. Das Beispiel zeigt daher deutlich, dass ein Pronomen innerhalb eines Satzes auch eine gewisse Gefahr in sich birgt. Konstruktionen wie in diesem Beispiel sorgen bereits bei einem menschlichen Übersetzer oder auch Leser für ein kurzes Stocken beim Lesen. Die maschinelle Übersetzung kann hingegen völlig aus dem Gleichgewicht geraten. Selbstverständlich sollten nicht generell alle Pronomen vermieden werden, aber es sollte eine Empfehlung an alle Redakteure ausgesprochen werden, genau zu prüfen, ob der Bezug von Pronomen zu Subjekt eindeutig genug ist. Auch sollte geprüft werden, wie gut die eigenen MÜ-Tools mit solchen Konstruktionen zurechtkommen. Neigt eine bestimmte Konstruktion dazu, Fehler zu verursachen, ist zu überlegen, den Satz umzuformulieren oder das Nomen zu wiederholen.

Ähnlich verhält es sich mit Präpositionen. In der technischen Dokumentation neigt der Redakteur gerne dazu, einen sehr kurzen Schreibstil zu pflegen, der den Inhalt auf den Punkt bringen und Platz sparen soll. Es wird auf Präpositionen verzichtet und als Folge wird der Inhalt der Aussage nicht mehr deutlich erkennbar. Hier ein Beispiel mit zwei Sätzen:

Beispiel:

  • Anschlussplan Schaltschrank
  • Fehler Temperatur CPU

Wer diese Sätze liest und sich im entsprechenden Fachbereich auskennt, wird vermutlich erkennen, dass es sich um einen Anschlussplan eines Schaltschranks handelt und ein Fehler in der CPU durch eine zu hohe Temperatur aufgetreten ist.

Aber was, wenn der Bezug nicht so deutlich ist?

Hier ein weiteres Beispiel: Rollenband Eckumsetzter Zuschnittzufuhr

Hier sind mehrere Bezüge zwischen den Wörtern möglich, wobei jeder Bezug dem Satz eine andere Bedeutung geben würde. Was bereits für einen Menschen schwierig erscheint, ist für eine MÜ fast unmöglich korrekt zu übersetzen, da die Konstruktion mit nur einem oder zwei unterschiedlichen Wörtern im Ausgangs- und Zieltext eine ganz andere Bedeutung bekommen kann. Im Zweifel setzt die MÜ einzelne Nomen, wie im Deutschen, aneinander und liefert damit weitere Verständnisprobleme. Konstruktionen ohne Präpositionen sollten daher grundsätzlich vermieden werden, denn je weniger eindeutige Informationen ein zu übersetzender Satz hat, umso höher wird die Fehlerquote bei der MÜ.

Aber nicht nur fehlende Präpositionen und uneindeutige Pronomen können ein Problem für die MÜ darstellen. Auch bei der Verwendung von Variablen kann das Fehlen eines Signalworts zu falschen Übersetzungen führen. Denn an den Stellen, an denen später zum Beispiel ein Bild oder ein Name eingefügt werden soll, erscheint für die Maschine zuerst lediglich ein Platzhalter ohne Inhalt und damit ohne jegliche grammatikalische Information. Die MÜ könnte im schlimmsten Fall die Variable überlesen oder diese mit falschen grammatikalischen Informationen in der Übersetzung belegen.

Beispiel: Mit <Bild> wechselt der Benutzer zur nächsten Sicht des Assistenten.

Selbst wenn keine Variable verwendet wird, sondern wie bei einer Software-Dokumentation der Name der grafischen Oberfläche eingefügt wird, kann es zu ähnlichen Problemen kommen.

Beispiel: Die „ABC“ protokolliert alle Aktivitäten.

Die MÜ sieht zwar einen ausgezeichneten Begriff, aber wichtige Informationen für die Zielsprache fehlen und können zu fehlerhaften Übersetzungen führen. Besser wäre hier, wenn in solchen Fällen zusätzliche Signalwörter, wie etwa „Sicht“, „Bild“, „Grafik“, „Abbildung“ usw. verwendet würden, um die Erkennung für die MÜ, aber auch für den Leser, zu verbessern.

Beispiel: Die Sicht „ABC“ protokolliert alle Aktivitäten.

Wie die Schreibregeln anpassen?

Für die Einführung von MÜ in der technischen Dokumentation ist es nicht unbedingt notwendig, alle Festlegungen für die Redaktion umzuwerfen. Vielmehr können die vorhandenen Schreibregeln modifiziert und erweitert werden. Eine gute Referenz bietet die bereits bestehende Dokumentation, die mithilfe aktueller Regeln und der Erfahrung aus der Übersetzung analysiert werden kann. Ziel ist es zu prüfen, ob die vorhandenen Texte und Regeln bei der Übersetzung in die benötigten Sprachen zu Verständnisproblemen und Fehlübersetzungen führen können. Es ist wichtig, die Texte nicht nur aus Sicht eines menschlichen Lesers zu betrachten, sondern auch aus der Sicht einer Maschine mit deren Limitierungen. Die Maschine sieht den Text, anders als der Mensch, nicht als Ganzes. Stattdessen betrachtet sie den Text eher klar strukturiert in einzelnen Sätzen oder Segmenten und sieht jeden Teil des Texts als etwas Eigenes. Daher ist es wichtig, sich die Frage zu stellen, ob der Satz, die Überschrift, Abkürzung, Aufzählung etc., auch ohne Kontext zu den Texten der davor und danach stehenden Sätze verstanden werden kann. Auch ist zu prüfen, ob die verwendeten Benennungen von Bauteilen oder die Beschreibung von Prozessen immer konsistent erfolgen und sich in ihrer Struktur deutlich von anderen Textarten unterscheiden. Ist dies nicht der Fall, so könnte das bereits ein Anzeichen dafür sein, dass der Text in der aktuellen Form nicht für die maschinelle Übersetzung verwendet werden kann. Ein solcher Verdacht kann durch Testübersetzungen mittels der eigenen oder öffentlicher MÜ-Engines, wie Google, DeepL oder Microsoft in die vorhandenen Sprachen geprüft und bestätigt werden.

Quellen:

Burchardt, Aljoscha et al. (2017): A linguistic evaluation of rule-based, phrase-based, and neural MT engines, in: The Prage Bulletin of Mathematical Linguistics 108. S. 159-170.

tekom (2013): Regelbasiertes Schreiben: Deutsch für die Technische Kommunikation. 2. Auflage, Stuttgart. 

Über den Autor:

Michael Born arbeitet seit 2016 als Übersetzungsmanager bei der cognitas. Neben der Steuerung von Übersetzungsprojekten kümmert er sich um die Betreuung der japanischen Kunden, berät die Redakteure bei sprachlichen Fragen und rund um die Entwicklung und Weiterentwicklung von Übersetzungsprozessen.

tl;dr

Damit der Einsatz der maschinellen Übersetzung innerhalb der Dokumentationsübersetzung funktioniert, reicht es nicht aus, die bestehenden Satzstrukturen eins zu eins von der Ausgangs- in die Zielsprache zu überführen. Vielmehr muss die Sprache und Struktur der Texte auf die Besonderheiten der maschinellen Übersetzung angepasst werden, damit Mensch und Maschine gleichermaßen mit den erstellten Texten umgehen können.