Der Output: Ergebnisaufbereitung

Nach der eigentlichen Termextraktion werden die extrahierten Terme in Ergebnisdateien bereitgestellt. Bei der Congree-Termextraktion werden Ihnen standardmäßig die folgenden vier Ergebnisdateien bereitgestellt:

eine tabellarische Aufbereitung der extrahierten Terme in Form einer Excel-Tabelle
eine Auflistung aller ermittelten Vorkommenskontexte pro Termkandidaten
eine Auflistung aller Belegdokumente pro Termkandidaten
eine Datei mit grundlegenden Kennzahlen zur durchgeführten Termextraktion

Termkandidaten-Tabelle

Die bei der Termextraktion ermittelten Termkandidaten und zugehörige Informationen werden als Excel-Tabelle erfasst.

In Microsoft Excel stehen verschiedene Möglichkeiten zur Sortierung und Filterung der Tabelle zur Verfügung. So bieten sich beispielsweise eine Sortierung nach der Anzahl der Belegstellen und eine nachrangige Sortierung nach der Anzahl der Belegdokumente an, um eine Ergebnissichtung gemäß der Vorkommenshäufigkeit und -verteilung der Termkandidaten vorzunehmen. Jede Sortierung kann außerdem mit Filterkriterien kombiniert werden. So können beispielsweise Termkandidaten, die spezielle Extraktionskriterien erfüllen, ausgeblendet oder in den Bearbeitungsfokus genommen werden.

Die Excel-Tabelle enthält folgende Informationen:

eine durchgehende Nummerierung der ermittelten Termkandidaten
die extrahierten Termkandidaten in der berechneten lexikografischen Grundform – in Fällen, in denen mehrere Grundformen für einen Termkandidaten ausgewiesen werden, sind diese nach Häufigkeit sortiert
die Termkandidaten in allen Formen, in denen sie in den Eingabedaten vorkommen
die Wortart der ermittelten Termkandidaten bzw. ihrer Bestandteile
Information, aufgrund welchen Kriteriums ein Termkandidat extrahiert wurde, z. B. aufgrund seines Bildungsmusters (mehrwortiges Kompositum, zusammengesetztes Substantiv, einfaches Substantiv o. ä.)
wie oft ein Termkandidat insgesamt im analysierten Dokumentbestand belegt ist
in wie vielen Dateien aus dem analysierten Dokumentbestand ein Termkandidat vorkommt.
die Dokumentnamen, in denen ein Termkandidat vorkommt.
bis zu drei Vorkommenskontexte des jeweiligen Termkandidaten

Belegdokumente

Die zweite Ergebnisdatei listet pro Termkandidaten sämtliche Belegdokumente. Sie weist ein zweispaltiges Format auf (Tabulator-separiert): In der ersten Spalte wird pro Zeile die laufende Nummer eines Termkandidaten aus der Termextraktionstabelle aufgeführt. In der zweiten Spalte wird jeweils ein Belegdokument zu der betreffenden Nummer aufgeführt.

Vorkommenskontexte

Die dritte Ergebnisdatei listet pro Termkandidaten sämtliche Vorkommenskontexte. Diese UTF-8-kodierte Datei weist ein zweispaltiges Format auf (Tabulator-separiert): In der ersten Spalte wird pro Zeile die laufende Nummer eines Termkandidaten aus der Termextraktionstabelle aufgeführt. In der zweiten Spalte wird jeweils ein Vorkommenskontext zu der betreffenden Nummer aufgeführt.

tl;dr

Nach der eigentlichen Termextraktion werden die extrahierten Terme in Ergebnisdateien bereitgestellt. Der vorliegende Beitrag stellt dar, wie der Output einer linguistischen Termextraktion aufbereitet wird.

Ein Artikel von

Hannah Kaufhold
Marketing Manager, Congree

Termextraktionskennzahlen

Die vierte Ergebnisdatei enthält grundlegende Kennzahlen zur durchgeführten Termextraktion.

Bezogen auf die Eingabedaten werden angegeben:

Anzahl der Dokumente, aus denen Textanteile extrahiert werden konnten und die somit bei der Termextraktion berücksichtigt wurden
Anzahl der Satzobjekte
Anzahl der echten Wörter (keine Satzzeichen u. Ä.)

Bezogen auf die Extraktionsergebnisse werden angegeben:

Anzahl der erkannten Terme (für den Fall, dass bei der Termextraktion eine Bestandsterminologie berücksichtigt wurde)
Anzahl der ermittelten Termkandidaten

Für die ermittelten Termkandidaten werden angegeben:

Anzahl der Nominalphrasen
Anzahl der zusammengesetzten Substantive
Anzahl der einfachen Substantive
Anzahl der Akronyme, Maßeinheiten u. Ä.
Anzahl der unbekannten Wörter

Da im Hinblick auf die unterschiedlichen Extraktionskriterien Mehrfachzuweisungen möglich sind, kann sich die Summe dieser Angaben von der absoluten Anzahl der Termkandidaten unterscheiden.

Der Output: Ergebnisaufbereitung

Termkandidaten-Tabelle

Belegdokumente

Vorkommenskontexte

tl;dr

Ein Artikel von

Hannah Kaufhold
Marketing Manager, Congree

Termextraktionskennzahlen

Bisher erschienene Teile der Reihe

Your Content. Your Control.

Der Output: Ergebnisaufbereitung

Termkandidaten-Tabelle

Belegdokumente

Vorkommenskontexte

tl;dr

Ein Artikel von

Hannah Kaufhold Marketing Manager, Congree

Termextraktionskennzahlen

Bisher erschienene Teile der Reihe

Your Content. Your Control.

Hannah Kaufhold
Marketing Manager, Congree