Terminologiemanagement mit probabilistischen KI-Systemen

Terminologiemanagement

Terminologiemanagement ist in zahlreichen Bereichen von zentraler Bedeutung, insbesondere jedoch in hochgradig spezialisierten Fachbereichen wie Recht, Technik und Medizin, wo eine klar definierte, einheitliche Terminologie entscheidend für Produktsicherheit, Rechtssicherheit und die Vermeidung von Haftungsschäden sein kann. In multilingualen Kontexten muss Terminologiemanagement selbstverständlich auch in professionelle Übersetzungsprozesse eingebunden werden, wobei Künstliche Intelligenz und speziell probabilistische KI-Systeme eine immer größere Rolle spielen.

Terminologieerzwingung mit klassischen Übersetzungssystemen

Die meisten kommerziellen Anbieter von KI-basierten Übersetzungssystemen (Neuronale Maschinelle Übersetzung, NMÜ), darunter etwa DeepL und Google Translate, bieten deshalb die Möglichkeit, bilinguale Glossare hochzuladen. Die darin enthaltenen Termini sollen während des Übersetzungsprozesses systematisch „erzwungen“ werden und probabilistisch determinierte Alternativen dabei gegebenenfalls überschreiben. In Fachkreisen wird dieses Verfahren terminology enforcement (Terminolgieerzwingung) oder auch terminology integration (Terminologieintegration) genannt. Da es sich hierbei um einen Eingriff in hochkomplexe neuronale Netze mit unzähligen verdeckten Schichten handelt, gilt die Terminologieerzwingung jedoch als technisch äußerst komplexe Aufgabe, die auch von State-of-the-Art-Systemen bislang nicht vollkommen zuverlässig ausgeführt wird. So werden einzelne Glossartermini oftmals ohne ersichtlichen Grund überhaupt nicht oder nur teilweise übernommen. Zudem kann Terminologieerzwingung bei NMÜ-Systemen auch zu negativen Effekten führen, etwa indem zusätzliche Rechtschreib-, Interpunktions- oder Grammatikfehler generiert werden. Das folgende Beispiel zeigt mit einem Kongruenzfehler und einem überflüssigen Leerzeichen zwei sehr typische Fälle:

Beispiel

Ausgangstext:

Is wet-nursing culturally acceptable and can a safe wet-nurse be identified?
No: Feed infant formula milk to the baby until the mother recovers.

Google Translate:

Ist die Ammenstillen kulturell akzeptabel und kann eine sichere Amme identifiziert werden? Nein: Füttern Sie das Baby mit Säuglingsnahrung , bis sich die Mutter erholt hat.

Beispiel aus Šorak 2026. Textabschnitt aus Weltgesundheitsorganisation (2020): „FAQ: Breastfeeding and COVID-19. For health care workers“. Glossartermini von der Verfasserin unterstrichen.

Eine Untersuchung mit DeepL und Google Translate anhand von Texten der Weltgesundheitsorganisation zeigte, dass solche Negativeffekte keinesfalls marginal sind: Bei DeepL traten sie in 12 % der Fälle auf, bei Google Translate sogar in 20 % (Šorak 2026). [VS1] Die Untersuchung zeigte darüber hinaus, dass die Terminologieerzwingung durch Google Translate in 24 % der Fälle scheiterte, während dies bei DeepL nur in 5 % der Fälle beobachtet wurde.

[VS1] Diese Zahlen stammen aus meiner Dissertation, die in den nächsten Monaten veröffentlicht werden soll.

Terminologieerzwingung mit generativen LLMs

In den letzten Jahren werden auch immer häufiger generative Large Language Models (LLMs) wie OpenAIs ChatGPT oder Google Gemini für Übersetzungsaufgaben eingesetzt. Im Unterschied zu klassischen NMÜ-Systemen ist die Terminologieerzwingung hier kein zusätzliches, sondern ein inhärentes Feature, das über Prompting initiiert wird. Typische Negativeffekte wie die oben beschriebenen Grammatik- oder Interpunktionsfehler konnten bislang nicht bei generativen LLMs beobachtet werden. Dennoch sind auch LLMs bei der Terminologieerzwingung unzuverlässig. Eine Pilotstudie mit ChatGPT und Google Gemini anhand von Texten der Weltgesundheitsorganisation zeigte, dass beide Systeme die Glossartermini nur in knapp über 70 % der Fälle übernahmen (Šorak 2025). Die getesteten Glossare umfassten Adjektive, Verben, Substantive und Mehrwortlexeme. Dabei wurden bewusst auch allgemeinsprachliche Begriffe aufgenommen, um zu prüfen, ob terminologische Präferenzen auch bei Alternativen mit signifikant höherer Probabilität zuverlässig erzwungen werden, z. B. respectful – wertschätzend statt respektvoll und disrespectful – geringschätzig statt respektlos. Die Gründe für das Scheitern der Terminologieerzwingung blieben in den meisten Fällen unklar, auffällig war jedoch, dass beide Modelle bei allgemeinsprachlichen Begriffen etwas häufiger von den Glossarvorgaben abwichen. Eine plausible Erklärung ist, dass Termini, für die eine statistisch deutlich wahrscheinlichere Alternativübersetzung existiert, mit einem erhöhten Risiko des Scheiterns verbunden sind, da in diesen Fällen die statistische Dominanz priorisiert wird. Ein zusätzlicher Test mit einem bewusst falschen Glossareintrag (WHO Statement – OHW-Stellungnahme) scheint diese Hypothese zu stützen: Die Modelle „korrigieren“ den Glossareintrag i.d.R., die Terminologieerzwingung scheitert also. Demnach wird eine terminologische Vorgabe offenbar umso eher ignoriert, je stärker sie von den gelernten Wahrscheinlichkeitsmustern abweicht. Dennoch werden selbst solche „unplausiblen“ Vorgaben in manchen Fällen umgesetzt. Das folgende Beispiel zeigt einen Fall, in dem ChatGPT die Glossarvorgabe innerhalb eines Absatzes zunächst erfolgreich integriert und dann ignoriert hat:

Beispiel

Ausgangstext:

To achieve a high standard of respectful care during childbirth, health systems must be organized and managed in a manner that ensures respect for women’s sexual and reproductive health and human rights. While many governments, professional societies, researchers, international organizations, civil society groups and communities worldwide have already highlighted the need to address this problem (11-14) in many instances policies to promote respectful maternal care have not been adopted, are not specific, or have not yet been translated into meaningful action.

ChatGPT:

Um ein hohes Maß an wertschätzender Versorgung während der Geburt zu gewährleisten, müssen Gesundheitssysteme so organisiert und verwaltet werden, dass sie die sexuellen und reproduktiven Gesundheitsrechte und Menschenrechte von Frauen respektieren. Zwar haben viele Regierungen, Fachgesellschaften, Forschende, internationale Organisationen, zivilgesellschaftliche Gruppen und Gemeinschaften weltweit bereits auf die Notwendigkeit hingewiesen, dieses Problem anzugehen, doch wurden entsprechende Politiken zur Förderung einer respektvollen* geburtshilflichen Versorgung häufig nicht verabschiedet, sind zu allgemein oder wurden noch nicht in konkrete Maßnahmen umgesetzt.

Beispiel aus Šorak 2025. Textabschnitt aus Weltgesundheitsorganisation (2020): „The prevention and elimination of disrespect and abuse during facility-based childbirth“. Glossartermini von der Verfasserin unterstrichen.

Unklar bleibt bislang, ob und inwieweit sich die Terminologieerzwingung mit verschiedenen Prompting-Strategien verbessern lässt. In der genannten Pilotstudie wurden ausschließlich Direktprompts (Zero Shot) verwendet.

Google Gemini: Ein Sonderfall

Speziell für Google Gemini sollte zudem angemerkt werden, dass das System dazu tendiert, bei der Übersetzung erhebliche Änderungen zum Ausgangstext vorzunehmen. So werden beispielsweise Überschriften weggelassen, die Satzreihenfolge verändert, Informationen hinzugefügt bzw. verdoppelt und teilweise auch ausgelassen. Darüber hinaus nimmt das Modell auch immer wieder Änderungen der Formatierung durch den Fettdruck einzelner Begriffe oder Satzteile sowie Änderungen der Absatzstruktur vor.

Das folgende Beispiel zeigt einen Textabschnitt, in dem Google Gemini Teile der ursprünglichen Instruktionen bei der Übersetzung dupliziert und fettgedruckt hat. Auch Glossartermini wurden hier durch Fettdruck hervorgehoben.

Beispiel

Ausgangstext:

Gastric reflux (sometimes called acid reflux or heartburn) is very common, so avoid eating late at night or eating foods that cause indigestion.
Stop smoking.
Use other ways of communicating, such as writing, texting or using gestures, if talking is difficult or uncomfortable.

Google Gemini:

Umgang mit Reflux: Sodbrennen(Reflux oder saurer Rückfluss) ist sehr häufig. Vermeiden Sie es daher, spät abends zu essen oder Lebensmittel zu sich zu nehmen, die Magenverstimmungenverursachen.
Rauchen aufhören: Stellen Sie das Rauchen ein.
Alternative Kommunikation: Nutzen Sie andere Kommunikationswege wie Schreiben, Textnachrichten oder Gestik, wenn das Sprechen schwierig oder unangenehm ist.

Beispiel aus Šorak 2025. Textabschnitt aus Weltgesundheitsorganisation (2021): „Support for rehabilitation: self-management after COVID-19-related illness“. Glossartermini von der Verfasserin unterstrichen, Hervorhebungen durch Fettdruck durch Google Gemini.

In Bereichen, in denen eine ausgangstextnahe Übersetzung zwingend erforderlich ist (etwa bei juristischen Texten), stellt dies ein erhebliches Problem dar. Folglich muss Google Gemini in solchen Fällen durch entsprechendes Prompting zu restriktiveren Übersetzungen aufgefordert werden. Idealerweise sollte jedoch auf Modelle zurückgegriffen werden, die näher am Ausgangstext übersetzen.

Fazit

Bei probabilistischen KI-Modellen wie generativen LLMs und NMÜ-Systemen ist die Terminologieerzwingung im Übersetzungsprozess bislang nicht vollständig zuverlässig. Für terminologiesensible Anwendungsbereiche bedeutet dies, dass nachgelagerte humane oder automatisierte Terminologieprüfungsprozesse auch heute noch unbedingt erforderlich bleiben.

Quellen

Šorak, Vanessa (2025): „Terminologieerzwingung mit generativen LLMs: ChatGPT und Google Gemini als Übersetzungstools“, in: edition. Fachzeitschrift für Terminologie, 25(2), 19–24. URL: edition.dttev.org/ausgaben/edition-2025-2-e-version.pdf [29.01.2026]

Šorak, Vanessa (2026, im Druck): Neural Machine Translation in Pandemic-Related Health Communication. A Comprehensive Analysis of Risks and Risk Mitigation Strategies Using WHO’s COVID-19 Communication as an Example. Translation and Multilingual Natural Language Processing, Language Science Press: Berlin.

tl;dr

Bei probabilistischen KI-Modellen wie generativen LLMs und NMÜ-Systemen ist die Terminologieerzwingung im Übersetzungsprozess bislang nicht vollständig zuverlässig.

Ein Artikel von
Dr. Vanessa Šorak

Dr. Vanessa Šorak ist akademische Mitarbeiterin am Institut für Übersetzen und Dolmetschen der Universität Heidelberg. In ihrer Forschung befasst sie sich mit KI-basierten Sprachtechnologien in multilingualen Übersetzungsprozessen, insbesondere im Bereich der öffentlichen Gesundheitskommunikation.

Terminologiemanagement mit probabilistischen KI-Systemen