Die Spreu vom Weizen trennen: Methoden zur Terminologieextraktion im Vergleich

Blog-Beitrag vom 27.04.2021

Von Beate Früh unter Mitarbeit von Lisa Prohaska

Bei genauerem Hinschauen stellt man fest, dass Terminologieextraktion nicht nur eine Methode ist, sondern dass sie auf mehrere Arten und Weisen durchgeführt werden kann: manuell oder automatisch, einsprachig oder mehrsprachig, basierend auf statistischen, linguistischen oder gar hybriden Methoden. Gleich vorneweg: Es gibt keine richtige oder falsche Methode, sondern jede Methode hat ihren für Sie passenden Anwendungsfall oder gar das für sie am besten geeignete Werkzeug. Daher gibt es auch nicht das perfekte Extraktionswerkzeug, sondern man wählt aus einem Pool an auf den Anwendungszweck abgestimmten Werkzeugen aus.

Manuelle Termextraktion

Manuelle Termextraktion ist angebracht, wenn die Dokumentenmenge übersichtlich ist und die Person, die die Termextraktion durchführt, gezielt weiß, welche Begriffe gesucht werden. Dabei werden beim Lesen des Texts Schlüsselwörter im Ausgangsdokument markiert und anschließend in einer separaten Tabelle aufgelistet. Richtig angewandt bringt diese Methode in kürzerer oder gleicher Zeit nicht weniger schlechte Ergebnisse als die automatische, toolgestützte Terminologieextraktion. Was heißt aber schlechtere Ergebnisse? Softwarewerkzeuge produzieren in erster Linie lange Wortlisten, die viele unnütze Termkandidaten enthalten, den so genannten "noise". Diese Spreu vom Weizen zu trennen ist die erste Aufgabe von Terminologinnen und Terminologen, bevor man sich an die eigentliche terminologische Prüfung der Liste macht.

Linguistische und hybride Terminologieextraktion

Sobald aber das Textkorpus mehrere Seiten und Dokumente überschreitet, bietet sich die automatische bzw. halb automatische Termextraktion mit einem Softwarewerkzeug an. Dabei werden die Termkandidaten aus dem hochgeladenen Textkorpus meist auf der Basis von statistischen Methoden ermittelt, d. h. auf der Auswertung, wie häufig ein Wort oder eine Wortkombination im Textkorpus vorkommt. Durch den Einsatz von so genannten Stoppwortlisten werden allgemeinsprachliche Wörter und Partikel wie Pronomen, Präpositionen und Konjunktionen ausgeschlossen. Eine andere Klasse von Extraktionswerkzeugen basiert auf linguistischen Methoden, die auf der Analyse der Morphologie und Syntax der Dokumente beruhen. Und dank Methoden wie Tagging in der Lage sind, die Wortart zu bestimmen und mit Stemming die Termkandidaten auf ihre Grundform zurückführen können. Optimal sind hybride Werkzeuge, die beide Methoden vereinen. Der Nachteil von linguistischen Tools besteht darin, dass diese nur für wenige Sprachen verfügbar sind und in der Regel auch nur einsprachig sind.

Wir haben vor einiger Zeit bei uns im Unternehmen mit einem Textkorpus mehrere Werkzeuge und Tools verglichen und sind auf folgende Bearbeitungszeiten für das gleiche Textkorpus gekommen.

Im Kosten-Nutzen-Vergleich, wenn man nur einsprachige Terminologieextraktion benötigt, ist die Nutzung von hybriden Tools den statistischen Tools weit überlegen, bei denen das Ausputzen und Abarbeiten der oft langen Termkandidatenlisten nicht nur einen beträchtlichen Zeitverlust darstellt, sondern sich auch in höheren Aufwänden aufgrund der insgesamt längeren Arbeitszeit niederschlägt. Dabei haben wir die Kosten sowohl inklusive als auch exklusive der Softwarekosten, Lizenzgebühren bzw. der Kosten für die Nutzung der Software berücksichtigt.

Zwei- bzw. mehrsprachige Terminologieextraktion

Will man mehrsprachige Terminologieextraktion durchführen, muss man daher entweder nur auf statistische Tools zurückgreifen, oder aber man arbeitet mehrstufig und ermittelt zunächst mit einem hybriden Werkzeug eine Liste mit den gewünschten Benennungen in der Ausgangssprache. Man nimmt dann diese Liste und ermittelt mittels so genannter restriktiver Terminologieextraktion in einem zweiten Arbeitsschritt die zugehörigen fremdsprachigen Termkandidaten. Dabei kann pro Extraktionsvorgang nur ein Sprachpaar von Ausgangs- und Zielsprache bearbeitet werden. Will man Termkandidaten aus weiteren Sprachen ermitteln, dann bedeutet das jeweils einen weiteren Durchgang pro Sprache.

Für die zwei- oder mehrsprachige Terminologieextraktion gibt es jedoch zwei wichtige Voraussetzungen: Der Terminologe oder Übersetzer muss die Zielsprache beherrschen, damit er in der Lage ist, die fremdsprachigen Termkandidaten auszuwählen, weil die Tools nur in Teilen in der Lage sind, diese automatisch korrekt zu bestimmen. Eine zweite wichtige Voraussetzung für die mehrsprachige Termextraktion liegt in der Qualität des Textkorpus. Ausgangs- und Zielsprache müssen synchron sein, d. h., die Segmente müssen sich 1:1 entsprechen. Dies ist entweder bei bilingualen TMX-Dateien der Fall, oder oft auch bei Übersetzungen aus Content Management Systemen, bei denen es zwischen Ausgangs- und Zielsprache keine Variantenbildung gibt und dann meist die entsprechenden PDF-Dokumente für die Extraktion herangezogen werden können. Ist dies nicht gegeben, müssen entweder vor der Extraktion die Texte zunächst noch aligniert werden, was man entweder mit einer entsprechenden Spezialsoftware, die oft Bestandteil von kommerziellen Werkzeugen zur computergestützten Übersetzung sind, mit speziellen Alignment-Programmen oder kostenlosen Tools. Noch simpler ist einfach mit Excel oder einem anderen Tabellenkalkulationsprogramm, in dem man Ziel- und Ausgangssprache(n) nebeneinander in Spalten führt und manuell nachjustiert, wo Verschiebungen bestehen.

Terminologieextraktion als Dienstleistung

Es mag nicht für jedes Unternehmen opportun oder wirtschaftlich sein, sich ein Terminologieextraktionswerkzeug oder eine Controlled-Language-Checker-Software mit integrierter Terminologiegewinnung anzuschaffen. Mancherorts fehlt auch die Expertise, eine ein- oder mehrsprachige Termextraktion mit anschließender Validierung durchzuführen. In diesen Fällen kann dies auch als Dienstleistung eingekauft werden. So bietet Congree als externe Dienstleistung eine einsprachige Terminologieextraktion mit ihrem hybriden Extraktionstool für Deutsch und Englisch an. Diese Methode ist dann interessant, wenn noch keine oder nur geringe Termbestände im Unternehmen vorhanden sind, und ein Bestand aufgebaut werden soll. Liegen Terminologiebestände bereits vor und man möchte nur noch neue Termkandidaten ermitteln, ist dieses Angebot nicht mehr ganz so interessant, da keine Deltaextraktion möglich ist, d. h. man bezahlt auch für die Extraktion bereits vorhandener Termkandidaten.

Möchte man Terminologiebestände mittels zwei- oder mehrsprachiger Terminologieextraktion aufbauen, bieten sich Sprachdienstleister an, die über entsprechende Extraktionstools verfügen. Ebenso können spezialisierte Terminologiedienstleister wie Büro b3 oder blc, die über Tools und die terminologische Kompetenz und Erfahrung verfügen, Termkandidaten nach anderen Kriterien auswählen, als es Übersetzer tun würden.

Mittels Terminologieextraktion auf Knopfdruck fertige Terminologiebestände zu generieren wird auch bis auf Weiteres eine Illusion bleiben, auch wenn wir heute schon von NLP-basierter Extraktion träumen, die uns zukünftig zumindest einsprachig zielgenauer Termkandidaten bestimmter Begriffskategorien liefern wird. Setzt man heute aber schon auf die richtige Methode und das passende Tool, stellt die Terminologieextraktion jederzeit eine sinnvolle und auch wirtschaftliche Methode dar, um beim Auf- und Ausbau von Terminologiebeständen zu unterstützen.

tl;dr

Setzt man auf die richtige Methode und das passende Tool, stellt die Terminologieextraktion jederzeit eine sinnvolle und auch wirtschaftliche Methode dar, um beim Auf- und Ausbau von Terminologiebeständen zu unterstützen.