Die Durchführung: Extraktionsverfahren

Teil 2 von 3 der Reihe "Linguistische Termextraktion – der erste Schritt zum erfolgreichen Terminologieaufbau"
Blog-Beitrag vom 25.05.2021

In diesem Beitrag werden anhand englischsprachiger Beispiele die Extraktionsverfahren gezeigt, die im Rahmen einer linguistisch basierten Termextraktion genutzt werden.

Linguistische Analyse

Die Eingabedaten werden zunächst linguistisch analysiert. Dabei ermittelt die morphologische Analyse für jede einzelne Wortform die Wortart und zugehörige grammatische Informationen wie z. B. das Genus bei Substantiven. Die grammatische Analyse erkennt Wortgruppen und Satzbaumuster. Dabei werden mehrdeutige Wörter vereindeutigt.

Wichtig: Die linguistische Termextraktion ist primär für die Extraktion von Termen aus Texten und somit aus Sätzen oder satzartigen Strukturen ausgelegt. Daher kann es bedingt durch den hohen Ambiguitätsgrad des Englischen insbesondere dann vermehrt zu Fehlanalysen kommen, wenn die Eingabedaten überwiegend aus Satzfragmenten, Phrasen oder einzelnen Benennungen bestehen.

Auf Basis der linguistischen Analyse werden Termkandidaten nach bestimmten Kriterien ermittelt. Das grundlegende Kriterium ist dabei das Bildungsmuster:

  • mehrwortiges Kompositum bestehend aus einem Substantiv und Adjektiven oder weiteren Substantiven sowie Konjunktionen oder anderen Funktionswörtern, z. B.:
    • acoustic absorber, active navigation system
  • einwortiges zusammengesetztes Substantiv, z. B.:
    • acrylester, handgrip, microsurgery
  • einfaches Substantiv (inklusive abgeleiteter Substantive), z. B.:
    • absorption, manoeuvrability, rubber

Die Ermittlung von mehrwortigen Komposita unterliegt einer Reihe von Einschränkungen:

  • Bestimmte Adjektive wie z. B. Adjektive mit rein verstärkender oder deiktischer Bedeutung sind ausgenom­men:
    • an excellent fit
    • most important asset
    • the abovementioned loans
  • Kombinationen bestimmter Adjektive und Substantive sind ausgenommen:
    • a largeamount

Auch werden Substantive ausgenommen, die Bestandteile von Funktionsverbgefügen sind, z. B.:

  • when it makes sense
  • also take into account

Grundformenberechnung

Für gebeugte Wortformen wird auf Basis der morphologischen Analyse die lexikografische Grund­form berechnet. So können in den Ergebnisdaten unterschiedliche Wortformen in einem Eintrag zusammengefasst und deren Vorkommen zusammengezählt werden, z. B.:

  • Grundform "abbreviation"
    • Originalwörter "abbreviation", "abbreviations"
  • Grundform "accessory"
    • Originalwörter "Accessories", "accessories", "accessory"

Lassen sich unterschiedliche Wortformen unter Vernachlässigung der Bindestrich­setzung oder der Groß- und Kleinschreibung auf eine gemeinsame Normalform abbilden, werden diese Wortformen wiederum zusammengefasst, wobei Bindestrichvarianten als unterschiedliche Grundformen auf­geführt werden. Dabei werden immer, wenn mehrere Grundformen für einen Termkandidaten ausgewiesen werden, diese nach Vorkommenshäufigkeit der jeweiligen Schreibung sortiert, z. B.:

  • Grundform "auto-focus licence", "autofocus licence"
    • Originalwörter "Autofocus licence", "auto-focus licence", "autofocus licence"
  • Grundform "co-observation", "coobservation"
    • Originalwörter "Co-observation", "co-observation", "coobservation"

Mögliche Fehlerquellen

Auch wenn linguistisch basierte sprachverarbeitende Software sehr umfangreiche Wörterbücher verwendet, können einzelne Wörter oder Wortformen, die in den verarbeiteten Texten vorkommen, außerhalb der Abdeckung dieser Wörterbücher liegen. Dies gilt insbesondere für Vokabular, das speziellen Sachgebieten zuzuordnen ist oder zu einer firmenspezifischen Nomenklatur oder Terminologie gehört. Auch können bei der morphologischen Analyse einzelne Wortbildungen bedingt durch unvollständige Wörterbucheinträge unerkannt bleiben. Die Congree Language Technologies GmbH erweitert ihre Wörterbücher kontinuierlich. Dennoch können lexikalische Abdeckungslücken nicht generell ausgeschlossen werden.

Für die grammatische Analyse der verarbeiteten Texte kann außerdem nicht ausgeschlossen werden, dass bestimmte Wortgefüge unzureichend oder falsch analysiert werden. Dies kann u. a. auf das Vorhandensein von orthografischen oder grammatischen Fehlern zurückzuführen sein oder auf das Vorliegen von Mehrdeutigkeiten oder die strukturelle Komplexität der verarbeiteten Texteinheit. Auch können spezielle grammatische Strukturen von den bestehenden Analyse­komponenten unberücksichtigt sein. In der Folge kann es vorkommen, dass einzelne Wörter gar nicht oder falsch vereindeutigt werden und somit die Zuordnung der Wortart sowie weiterer grammatischer Merkmale ungenau oder falsch ist.

Generell gilt es festzuhalten, dass die eingesetzten Termextraktionsverfahren auf formalen linguistischen Kriterien sowie statistischen Methoden beruhen. Die Ergebnisse können somit von den Ergebnissen abweichen, die bei einer Termextraktion auf intellektueller Basis erzielt würden.

Bisher erschienene Teile der Reihe

  1. Die Vorbereitung: Datenaufbereitung
  2. Die Durchführung: Extraktionsverfahren

tl;dr

In diesem Beitrag werden anhand englischsprachiger Beispiele die Extraktionsverfahren gezeigt, die im Rahmen einer linguistisch basierten Termextraktion genutzt werden.