Die Spreu vom Weizen trennen: Grundlagen der Terminologieextraktion

Blog-Beitrag vom 20.04.2021

Von Beate Früh unter Mitarbeit von Lisa Prohaska

Wie komme ich schnell zu einem Erstbestand an Terminologie, um eine Terminologiedatenbank aufzubauen?

Zum Beispiel durch Terminologieextraktion, einer Methode zum Ermitteln von Benennungen, bei der eine Termkandidatenliste, meist toolgestützt, aus einem festgelegten Textkorpus gewonnen wird. Aber Stopp: Per Knopfdruck zur Terminologiedatenbank, das ist eine Illusion. Mit der oft umfangreichen Termkandidatenliste beginnt erst die eigentliche Terminologiearbeit.

Was ist Terminologieextraktion?

Aber jetzt erst einmal der Reihe nach: Was ist denn überhaupt Terminologieextraktion? Je nach Kontext liest man auch von Term Mining oder Term Harvesting, damit ist praktisch immer Terminologieextraktion, oder oft auch kurz Termextraktion genannt, gemeint.

Wozu Terminologieextraktion?

Sobald ein Unternehmen Sprachprüftools, so genannte Controlled Language Checker (CLC) wie z. B. Congree einsetzen möchte, müssen im Hintergrund Wörterbücher oder Terminologiedatenbanken mit erlaubten Benennungen und verbotenen Synonymen – und oft auch Schreibvarianten – geführt werden. Um diese zu ermitteln, kommt der Terminologieextraktion oft eine Schlüsselrolle zu.

Verfügt ein Unternehmen noch nicht über einen Terminologieleitfaden mit Regeln zur Benennungsbildung, so stellt eine Terminologieextraktion über ein breites Spektrum an Dokumenten, bestehend aus verschiedenen Dokumentarten von unterschiedlichen Autorengruppen, ein sehr gutes Mittel dar, um sich ein Bild über die im Unternehmen verwendeten Benennungsbildungsmuster zu machen. Diese erlauben es dann, die für das Unternehmen passenden Regeln festzulegen, die notwendig sind, um normierende (oder auch präskriptive) Terminologiearbeit, im Unternehmen einzuführen, wie sie für den Einsatz von Terminologieprüfwerkzeugen und CLC-Tools notwendig ist.

Aber Terminologieextraktion ist nicht nur ein probates Mittel zum Aufbauen und Ausbauen von ein- und mehrsprachigen Terminologiebeständen in Terminologiedatenbanken für die Übersetzung oder eben die ausgangssprachige Sprachprüfung. Sie findet auch in ganz anderen Bereichen ihre Anwendung. So ist sie Ausgangsbasis zum Erstellen von Indexen, Klassifikationen und Taxonomien. Die ermittelten Schlüsselwörter werden dann u. a. für die Verschlagwortung von Bausteinen in CMS und Dokumenten in DMS verwendet. Daraus wird im besten Fall dann ein so genanntes intelligentes Informationsmanagement, wenn man das Ganze zu Ontologien und Wissensgraphen ausbauen kann.

Was sind denn überhaupt Termkandidaten?

Bei der Terminologieextraktion, egal ob mit statistischen oder linguistischen und hybriden Werkzeugen, fallen zunächst große Mengen an Wortlisten an, die dann noch "ausgeputzt" werden müssen, um die eigentlichen Termkandidaten festzulegen. Diese Arbeit muss in der Regel manuell ausgeführt werden. Es kann aber abschreckend wirken, wenn die Tools Wortlisten mit über 4.000 Termkandidaten auswerfen. Welche Begriffe stellen denn dann letztendlich die eigentlichen Termkandidaten dar?

Es entscheidet immer die Verwendung bzw. Anwendung, welche Benennungen aus einem Textkorpus als Termkandidaten letztendlich infrage kommen. Im Bereich der Übersetzung möchte man nicht nur Termpaare erhalten, die die Schlüsselbegriffe aus bestimmten Sachgebieten repräsentieren. Hier ist alles interessant, was häufig im Textkorpus vorkommt und entweder eine Herausforderung an den Übersetzer selbst darstellt, was die Übersetzung an sich betrifft, oder zu inkonsistenten Übersetzungen führen kann, wenn z. B. bei einem Übersetzungsprojekt mehrere Übersetzer pro Sprache zum Einsatz kommen. Das können uneindeutige Mehrwortbenennungen sein, die ggf. sogar zu Fehlinterpretationen führen, genauso wie Synonyme. Gerade auch das Englische kennt viele solcher Uneindeutigkeiten aufgrund fehlerhafter Bezüge. Da ist es dann sinnvoll, solche Kandidaten zu identifizieren und bereitzustellen. Das lässt sich am Beispiel von "dynamic signal analyzer" zeigen: Handelt es sich um ein Gerät, das dynamische Signale analysiert (Analysegerät für dynamische Signale), oder ein Gerät, das Signale dynamisch analysiert (dynamischer Signalanalysator)?

Im Rahmen der Terminologieprüfung von Technischer Dokumentation sind natürlich alle Begriffe wichtig, die hier auftauchen können: Bezeichnungen von Bauteilen und -gruppen, Produktbezeichnungen, Funktionen, technischen Daten und Werkstoffen, aber auch Verben können interessant sein. Im Bereich von SEO wird man insbesondere auf Synonyme zu Produktbezeichnungen oder Funktionen zurückgreifen wollen, jenen Schlüsselbegriffen zum Bewerben der eigenen Produkte. Für PIM-Tools, die Katalogtexte führen und zu denen z. B. auch Produkteigenschaften gehören, mag es sinnvoll/notwendig sein, Adjektive als Termkandidaten zu ermitteln.

tl;dr

Sobald ein Unternehmen Sprachprüftools, so genannte Controlled Language Checker (CLC) wie z. B. Congree einsetzen möchte, müssen im Hintergrund Wörterbücher oder Terminologiedatenbanken mit erlaubten Benennungen und verbotenen Synonymen – und oft auch Schreibvarianten – geführt werden. Um diese zu ermitteln, kommt der Terminologieextraktion oft eine Schlüsselrolle zu.