Sorgenfreie maschinelle Übersetzung durch Authoring Tools

Wer unsere Blogs und Vorträge verfolgt, dem ist aufgefallen, dass wir nicht müde werden, auf die Relevanz des Terminologieeinsatzes für den Übersetzungsworkflow hinzuweisen. Dies betrifft nicht nur die klassischen Workflow-Komponenten wie Redaktionssysteme, CAT-Tools und Translation-Management-Systeme, sondern in besonderem Maße auch die maschinelle Übersetzung (MÜ). Gerade sie ist − bedingt durch die mediale Aufmerksamkeit für neuronale MÜ − zunehmend in den Fokus einer breit gefächerten Anwendergruppe gerückt. Ob die MÜ eine ernst zu nehmende Komponente im Übersetzungsworkflow darstellen kann, entscheidet sich anhand von Qualitätskriterien, zu denen neben der grammatischen Korrektheit auch die korrekte bzw. konsistente Verwendung von Terminologie in den Trainingstexten für die MÜ zählt.

Wir möchten in diesem Gastbeitrag darauf hinweisen, welche Möglichkeiten dem Nutzer zur Verfügung stehen, um bereits vor dem Trainieren einer MÜ-Engine die Weichen für ein optimales System zu stellen.

MÜ-Systeme: Lernen aus Daten

Um zu verstehen, welchen Einfluss der Nutzer auf die Systemqualität nehmen kann, ist es hilfreich, den Grundgedanken der aktuellen MÜ-Ansätze zu verstehen:

Die Datenbasis

Ist die Rede von MÜ-Systemen, dann sind heutzutage vor allem so genannte korpusbasierte MÜ-Systeme gemeint, d. h. Systeme, die anhand von umfangreichen, zweisprachigen Paralleltexten trainiert werden, den so genannten Trainingstexten. Parallele Texte liegen beispielsweise in Translation Memories (TMs) vor. In ihnen gibt es zu jedem Satz der Ausgangssprache auch einen eindeutig zugeordneten Satz der Zielsprache. Die statistische (SMÜ) und die neuronale MÜ (NMÜ) lernen anhand dieser Datenbasis, welche Übersetzung für ein Wort oder eine Phrase der Ausgangssprache am wahrscheinlichsten ist, wobei die zu Grunde liegenden Berechnungsmethoden sich in SMÜ und NMÜ unterscheiden. Für beide Methoden trifft jedoch zu, dass die Qualität der Trainingstexte in entscheidendem Maße zur Qualität des trainierten Übersetzungssystems – der so genannten Engine – beiträgt. Ist die Qualität der Trainingstexte schlecht, so wird auch die Übersetzung nicht hochwertig sein – man spricht hier auch vom so genannten „garbage in – garbage out“-Prinzip. Für beide MÜ-Verfahren gibt es eine Reihe grammatischer und formaler Kriterien, welche die Eignung von Sätzen für die MÜ mitbestimmen und somit im Vorfeld des Trainings auf Einhaltung überprüft werden sollten.

Die Terminologie

Moderne, cloudbasierte MÜ-Systeme verfügen über komfortable Erstellprozesse für MÜ-Engines, die vom Nutzer oftmals nur das Hochladen der Trainingstexte und den Befehl zum Beginn des Trainings erfordern. SMÜ-Systeme, und zunehmend auch NMÜ-Systeme, verfügen über die Möglichkeit, das Training durch das Hinzufügen von Terminologiedaten zu unterstützen. Auf diese Weise kann sichergestellt werden, dass Übersetzungen für zentrale Benennungen wie Marken- oder Produktnamen korrekt und einheitlich vorgenommen werden. Voraussetzung für den sinnvollen Terminologieeinsatz ist jedoch die konsistente Verwendung von Terminologie sowohl in den Trainingstexten als auch in den Texten, die übersetzt werden sollen – ohne eine Übereinstimmung mit Termen im Text kann die im Training eingesteuerte Terminologie keinen Einfluss auf den Übersetzungsprozess nehmen.

Die Congree-Sprachprüfung für die MÜ

Authoring Tools mit dem Fokus auf Sprachqualitätssicherung eignen sich aufgrund der regelgestützten Grammatik und Terminologieprüfung sehr gut, um die Ausgangstexte für den Einsatz in der maschinellen Übersetzung vorzubereiten.

Congree verfügt über einen umfassenden Regelkatalog, der sich für den spezifischen Anwendungsfall der Textprüfung im MÜ-Kontext anpassen lässt. Im Folgenden sind einige Regeln aufgelistet, mithilfe derer sich Texte spezifisch auf den MÜ-Einsatz hin prüfen lassen:

140de Ganze Sätze in Klammern vermeiden
160de/161de Zu lange Komposita aufgliedern
170de Schrägstriche vermeiden
410de Bedingungssatz mit „wenn“ einleiten
420de Verblose Konstruktionen vermeiden
430de Artikellose Nominalphrasen vermeiden
440de Auslassungen bei zusammengesetzten Wörtern vermeiden
512de Zu viele Bedeutungseinheiten vermeiden
530de Satzlänge verkürzen
541de Verschachtelte „zu“-Konstruktionen vermeiden
711de Passiv vermeiden

Neben weiteren Regeln, die die korrekte Rechtschreibung und die allgemeine Lesbarkeit des Texts sicherstellen, sorgen die genannten Regeln dafür, dass die MÜ-Systeme beim Training eine eindeutige Zuordnung von Wörtern in den Satzpaaren des jeweiligen Sprachpaars lernen können. Auch die Kontrolle der Satzlänge (Regel 530de) spielt insbesondere bei der Verarbeitung durch die NMÜ eine Rolle, da das Verfahren im Gegensatz zur SMÜ beim Training immer den gesamten Satz betrachtet.

Terminologie in den Trainingstexten

Neben der Grammatik- und Rechtschreibprüfung kann Congree sicherstellen, dass die Terminologie in den Ausgangstexten in konsistenter Weise verwendet wird. Hierzu muss dem System mitgeteilt werden, welche Benennungen bevorzugt, zugelassen oder unerwünscht sind. Während der Sprachprüfung mit einem Projekt werden die erkannten Terme auf ihren Verwendungsstatus hin überprüft. Unerwünschte oder zugelassene Terme können so angepasst werden. Hervorzuheben ist hier die Fähigkeit des Systems, Termvarianten zu erkennen (Ölwanne – Wanne für Öl). Ist noch keine Terminologie vorhanden, kann die Termkandidatenerkennung von Congree genutzt werden, um potenzielle Kandidaten in den Ausgangstexten zu identifizieren.

Bei der Erstellung von Trainingstexten für die MÜ begünstigen korrekte Ausgangstexte selbstverständlich auch die Erstellung von korrekten Zieltexten. Sind die Ausgangstexte grammatikalisch und terminologisch einwandfrei, sind sie bereit für die Übersetzung in einem CAT-Tool. Um auch in den Zieltexten eine konsistente Terminologieverwendung zu gewährleisten, sollte dem CAT-Tool die Terminologie des Ausgangstexts bekannt sein. In Congree wird dies durch die Anbindung an Terminologiemanagement-Tools wie z. B. Across crossTerm ermöglicht, indem die Terminologie des Redaktionsprozesses zur Übersetzung an ein Übersetzungsmanagement-System geschickt wird. Dort kann die Terminologie weiter aufgebaut werden und über die Sync-Funktion zurück nach Congree gespielt werden, wo die Terminologie zur Sprachprüfung bereitsteht.

Nach dem Übersetzungsprozess sind die Texte bereit, um in das MÜ-Training eingesteuert zu werden.

Fazit

Sollen MÜ-Systeme in den Übersetzungsworkflow eingebunden werden, empfiehlt es sich, bereits im Redaktionsprozess auf Authoring Tools zurückzugreifen, die eine qualitative Sprachprüfkomponente mitbringen. Genormte und verständliche Satzstrukturen in den Ausgangstexten sind die Voraussetzung für eine ebenso verständliche Übersetzung in den Zieltexten. Ist zudem die Beziehung von Termen in Ausgangs- und Zieltext konsistent, wird die resultierende MÜ-Engine nicht durch eventuelle Mehrdeutigkeiten verwirrt, was zu einer Verbesserung der Übersetzung führt.

Sorgenfreie maschinelle Übersetzung durch Authoring Tools

MÜ-Systeme: Lernen aus Daten

Die Datenbasis

Die Terminologie

Die Congree-Sprachprüfung für die MÜ

Terminologie in den Trainingstexten

Fazit

tl;dr

Ein Artikel von

Christian Eisold
Berater für Sprachprozessoptimierung, blc

Your Content. Your Control.

Sorgenfreie maschinelle Übersetzung durch Authoring Tools

MÜ-Systeme: Lernen aus Daten

Die Datenbasis

Die Terminologie

Die Congree-Sprachprüfung für die MÜ

Terminologie in den Trainingstexten

Fazit

tl;dr

Ein Artikel von

Christian Eisold Berater für Sprachprozessoptimierung, blc

Your Content. Your Control.

Christian Eisold
Berater für Sprachprozessoptimierung, blc