In diesem Beitrag werden anhand englischsprachiger Beispiele die Extraktionsverfahren gezeigt, die im Rahmen einer linguistisch basierten Termextraktion genutzt werden.
Linguistische Analyse
Die Eingabedaten werden zunächst linguistisch analysiert. Dabei ermittelt die morphologische Analyse für jede einzelne Wortform die Wortart und zugehörige grammatische Informationen wie z. B. das Genus bei Substantiven. Die grammatische Analyse erkennt Wortgruppen und Satzbaumuster. Dabei werden mehrdeutige Wörter vereindeutigt.
Wichtig: Die linguistische Termextraktion ist primär für die Extraktion von Termen aus Texten und somit aus Sätzen oder satzartigen Strukturen ausgelegt. Daher kann es bedingt durch den hohen Ambiguitätsgrad des Englischen insbesondere dann vermehrt zu Fehlanalysen kommen, wenn die Eingabedaten überwiegend aus Satzfragmenten, Phrasen oder einzelnen Benennungen bestehen.
Auf Basis der linguistischen Analyse werden Termkandidaten nach bestimmten Kriterien ermittelt. Das grundlegende Kriterium ist dabei das Bildungsmuster:
- mehrwortiges Kompositum bestehend aus einem Substantiv und Adjektiven oder weiteren Substantiven sowie Konjunktionen oder anderen Funktionswörtern, z. B.:
- acoustic absorber, active navigation system
- einwortiges zusammengesetztes Substantiv, z. B.:
- acrylester, handgrip, microsurgery
- einfaches Substantiv (inklusive abgeleiteter Substantive), z. B.:
- absorption, manoeuvrability, rubber
Die Ermittlung von mehrwortigen Komposita unterliegt einer Reihe von Einschränkungen:
- Bestimmte Adjektive wie z. B. Adjektive mit rein verstärkender oder deiktischer Bedeutung sind ausgenommen:
- an excellent fit
- most important asset
- the abovementioned loans
- Kombinationen bestimmter Adjektive und Substantive sind ausgenommen:
- a largeamount
Auch werden Substantive ausgenommen, die Bestandteile von Funktionsverbgefügen sind, z. B.:
- when it makes sense
- also take into account
Grundformenberechnung
Für gebeugte Wortformen wird auf Basis der morphologischen Analyse die lexikografische Grundform berechnet. So können in den Ergebnisdaten unterschiedliche Wortformen in einem Eintrag zusammengefasst und deren Vorkommen zusammengezählt werden, z. B.:
- Grundform "abbreviation"
- Originalwörter "abbreviation", "abbreviations"
- Grundform "accessory"
- Originalwörter "Accessories", "accessories", "accessory"
Lassen sich unterschiedliche Wortformen unter Vernachlässigung der Bindestrichsetzung oder der Groß- und Kleinschreibung auf eine gemeinsame Normalform abbilden, werden diese Wortformen wiederum zusammengefasst, wobei Bindestrichvarianten als unterschiedliche Grundformen aufgeführt werden. Dabei werden immer, wenn mehrere Grundformen für einen Termkandidaten ausgewiesen werden, diese nach Vorkommenshäufigkeit der jeweiligen Schreibung sortiert, z. B.:
- Grundform "auto-focus licence", "autofocus licence"
- Originalwörter "Autofocus licence", "auto-focus licence", "autofocus licence"
- Grundform "co-observation", "coobservation"
- Originalwörter "Co-observation", "co-observation", "coobservation"
tl;dr
In diesem Beitrag werden anhand englischsprachiger Beispiele die Extraktionsverfahren gezeigt, die im Rahmen einer linguistisch basierten Termextraktion genutzt werden.
Mögliche Fehlerquellen
Auch wenn linguistisch basierte sprachverarbeitende Software sehr umfangreiche Wörterbücher verwendet, können einzelne Wörter oder Wortformen, die in den verarbeiteten Texten vorkommen, außerhalb der Abdeckung dieser Wörterbücher liegen. Dies gilt insbesondere für Vokabular, das speziellen Sachgebieten zuzuordnen ist oder zu einer firmenspezifischen Nomenklatur oder Terminologie gehört. Auch können bei der morphologischen Analyse einzelne Wortbildungen bedingt durch unvollständige Wörterbucheinträge unerkannt bleiben. Die Congree Language Technologies GmbH erweitert ihre Wörterbücher kontinuierlich. Dennoch können lexikalische Abdeckungslücken nicht generell ausgeschlossen werden.
Für die grammatische Analyse der verarbeiteten Texte kann außerdem nicht ausgeschlossen werden, dass bestimmte Wortgefüge unzureichend oder falsch analysiert werden. Dies kann u. a. auf das Vorhandensein von orthografischen oder grammatischen Fehlern zurückzuführen sein oder auf das Vorliegen von Mehrdeutigkeiten oder die strukturelle Komplexität der verarbeiteten Texteinheit. Auch können spezielle grammatische Strukturen von den bestehenden Analysekomponenten unberücksichtigt sein. In der Folge kann es vorkommen, dass einzelne Wörter gar nicht oder falsch vereindeutigt werden und somit die Zuordnung der Wortart sowie weiterer grammatischer Merkmale ungenau oder falsch ist.
Generell gilt es festzuhalten, dass die eingesetzten Termextraktionsverfahren auf formalen linguistischen Kriterien sowie statistischen Methoden beruhen. Die Ergebnisse können somit von den Ergebnissen abweichen, die bei einer Termextraktion auf intellektueller Basis erzielt würden.
Bisher erschienene Teile der Reihe
- Die Vorbereitung: Datenaufbereitung
- Die Durchführung: Extraktionsverfahren