Der Output: Ergebnisaufbereitung

Teil 3 von 3 der Reihe "Linguistische Termextraktion – der erste Schritt zum erfolgreichen Terminologieaufbau"
Blog-Beitrag vom 01.06.2021

Nach der eigentlichen Termextraktion werden die extrahierten Terme in Ergebnisdateien bereitgestellt. Bei der Congree-Termextraktion werden Ihnen standardmäßig die folgenden vier Ergebnisdateien bereitgestellt:

  • eine tabellarische Aufbereitung der extrahierten Terme in Form einer Excel-Tabelle
  • eine Auflistung aller ermittelten Vorkommenskontexte pro Termkandidaten
  • eine Auflistung aller Belegdokumente pro Termkandidaten
  • eine Datei mit grundlegenden Kennzahlen zur durchgeführten Termextraktion

Termkandidaten-Tabelle

Die bei der Termextraktion ermittelten Termkandidaten und zugehörige Informationen werden als Excel-Tabelle erfasst.

In Microsoft Excel stehen verschiedene Möglichkeiten zur Sortierung und Filterung der Tabelle zur Ver­fügung. So bieten sich beispielsweise eine Sortierung nach der Anzahl der Belegstellen und eine nachrangige Sortierung nach der Anzahl der Belegdokumente an, um eine Ergebnissichtung gemäß der Vorkommenshäufigkeit und -verteilung der Termkandidaten vorzunehmen. Jede Sortierung kann außerdem mit Filterkriterien kombiniert werden. So können beispielsweise Termkandidaten, die spezielle Extraktionskriterien erfüllen, ausgeblendet oder in den Bearbeitungsfokus genommen werden.

Die Excel-Tabelle enthält folgende Informationen:

  • eine durchgehende Nummerierung der ermittelten Termkandidaten
  • die extrahierten Termkandidaten in der berechneten lexikografischen Grundform – in Fällen, in denen mehrere Grundformen für einen Termkandidaten ausgewiesen werden, sind diese nach Häufigkeit sortiert
  • die Termkandidaten in allen Formen, in denen sie in den Eingabedaten vorkommen
  • die Wortart der ermittelten Termkandidaten bzw. ihrer Bestandteile
  • Information, aufgrund welchen Kriteriums ein Termkandidat extrahiert wurde, z. B. aufgrund seines Bildungsmusters (mehrwortiges Kompositum, zusammengesetztes Substantiv, einfaches Substantiv o. ä.)
  • wie oft ein Termkandidat insgesamt im analysierten Dokumentbestand belegt ist
  • in wie vielen Dateien aus dem analysierten Dokumentbestand ein Termkandidat vorkommt.
  • die Dokumentnamen, in denen ein Termkandidat vorkommt.
  • bis zu drei Vorkommenskontexte des jeweiligen Termkandidaten

Belegdokumente

Die zweite Ergebnisdatei listet pro Termkandidaten sämtliche Belegdokumente. Sie weist ein zweispaltiges Format auf (Tabulator-separiert): In der ersten Spalte wird pro Zeile die laufende Nummer eines Termkandidaten aus der Termextraktionstabelle aufgeführt. In der zweiten Spalte wird jeweils ein Belegdokument zu der betreffenden Nummer aufgeführt.

Vorkommenskontexte

Die dritte Ergebnisdatei listet pro Termkandidaten sämtliche Vorkommenskontexte. Diese UTF-8-kodierte Datei weist ein zweispaltiges Format auf (Tabulator-separiert): In der ersten Spalte wird pro Zeile die laufende Nummer eines Termkandidaten aus der Termextraktionstabelle aufgeführt. In der zweiten Spalte wird jeweils ein Vorkommenskontext zu der betreffenden Nummer aufgeführt.

Termextraktionskennzahlen

Die vierte Ergebnisdatei enthält grundlegende Kennzahlen zur durchgeführten Termextraktion.

Bezogen auf die Eingabedaten werden angegeben:

  • Anzahl der Dokumente, aus denen Textanteile extrahiert werden konnten und die somit bei der Termextraktion berücksichtigt wurden
  • Anzahl der Satzobjekte
  • Anzahl der echten Wörter (keine Satzzeichen u. Ä.)

Bezogen auf die Extraktionsergebnisse werden angegeben:

  • Anzahl der erkannten Terme (für den Fall, dass bei der Termextraktion eine Bestandsterminologie berücksichtigt wurde)
  • Anzahl der ermittelten Termkandidaten

Für die ermittelten Termkandidaten werden angegeben:

  • Anzahl der Nominalphrasen
  • Anzahl der zusammengesetzten Substantive
  • Anzahl der einfachen Substantive
  • Anzahl der Akronyme, Maßeinheiten u. Ä.
  • Anzahl der unbekannten Wörter

Da im Hinblick auf die unterschiedlichen Extraktionskriterien Mehrfachzuweisungen möglich sind, kann sich die Summe dieser Angaben von der absoluten Anzahl der Termkandidaten unterscheiden.

Bisher erschienene Teile der Reihe

  1. Die Vorbereitung: Datenaufbereitung
  2. Die Durchführung: Extraktionsverfahren
  3. Der Output: Ergebnisaufbereitung

tl;dr

Nach der eigentlichen Termextraktion werden die extrahierten Terme in Ergebnisdateien bereitgestellt. Der vorliegende Beitrag stellt dar, wie der Output einer linguistischen Termextraktion aufbereitet wird.