Nach der eigentlichen Termextraktion werden die extrahierten Terme in Ergebnisdateien bereitgestellt. Bei der Congree-Termextraktion werden Ihnen standardmäßig die folgenden vier Ergebnisdateien bereitgestellt:
- eine tabellarische Aufbereitung der extrahierten Terme in Form einer Excel-Tabelle
- eine Auflistung aller ermittelten Vorkommenskontexte pro Termkandidaten
- eine Auflistung aller Belegdokumente pro Termkandidaten
- eine Datei mit grundlegenden Kennzahlen zur durchgeführten Termextraktion
Termkandidaten-Tabelle
Die bei der Termextraktion ermittelten Termkandidaten und zugehörige Informationen werden als Excel-Tabelle erfasst.
In Microsoft Excel stehen verschiedene Möglichkeiten zur Sortierung und Filterung der Tabelle zur Verfügung. So bieten sich beispielsweise eine Sortierung nach der Anzahl der Belegstellen und eine nachrangige Sortierung nach der Anzahl der Belegdokumente an, um eine Ergebnissichtung gemäß der Vorkommenshäufigkeit und -verteilung der Termkandidaten vorzunehmen. Jede Sortierung kann außerdem mit Filterkriterien kombiniert werden. So können beispielsweise Termkandidaten, die spezielle Extraktionskriterien erfüllen, ausgeblendet oder in den Bearbeitungsfokus genommen werden.
Die Excel-Tabelle enthält folgende Informationen:
- eine durchgehende Nummerierung der ermittelten Termkandidaten
- die extrahierten Termkandidaten in der berechneten lexikografischen Grundform – in Fällen, in denen mehrere Grundformen für einen Termkandidaten ausgewiesen werden, sind diese nach Häufigkeit sortiert
- die Termkandidaten in allen Formen, in denen sie in den Eingabedaten vorkommen
- die Wortart der ermittelten Termkandidaten bzw. ihrer Bestandteile
- Information, aufgrund welchen Kriteriums ein Termkandidat extrahiert wurde, z. B. aufgrund seines Bildungsmusters (mehrwortiges Kompositum, zusammengesetztes Substantiv, einfaches Substantiv o. ä.)
- wie oft ein Termkandidat insgesamt im analysierten Dokumentbestand belegt ist
- in wie vielen Dateien aus dem analysierten Dokumentbestand ein Termkandidat vorkommt.
- die Dokumentnamen, in denen ein Termkandidat vorkommt.
- bis zu drei Vorkommenskontexte des jeweiligen Termkandidaten
Belegdokumente
Die zweite Ergebnisdatei listet pro Termkandidaten sämtliche Belegdokumente. Sie weist ein zweispaltiges Format auf (Tabulator-separiert): In der ersten Spalte wird pro Zeile die laufende Nummer eines Termkandidaten aus der Termextraktionstabelle aufgeführt. In der zweiten Spalte wird jeweils ein Belegdokument zu der betreffenden Nummer aufgeführt.
Vorkommenskontexte
Die dritte Ergebnisdatei listet pro Termkandidaten sämtliche Vorkommenskontexte. Diese UTF-8-kodierte Datei weist ein zweispaltiges Format auf (Tabulator-separiert): In der ersten Spalte wird pro Zeile die laufende Nummer eines Termkandidaten aus der Termextraktionstabelle aufgeführt. In der zweiten Spalte wird jeweils ein Vorkommenskontext zu der betreffenden Nummer aufgeführt.
Termextraktionskennzahlen
Die vierte Ergebnisdatei enthält grundlegende Kennzahlen zur durchgeführten Termextraktion.
Bezogen auf die Eingabedaten werden angegeben:
- Anzahl der Dokumente, aus denen Textanteile extrahiert werden konnten und die somit bei der Termextraktion berücksichtigt wurden
- Anzahl der Satzobjekte
- Anzahl der echten Wörter (keine Satzzeichen u. Ä.)
Bezogen auf die Extraktionsergebnisse werden angegeben:
- Anzahl der erkannten Terme (für den Fall, dass bei der Termextraktion eine Bestandsterminologie berücksichtigt wurde)
- Anzahl der ermittelten Termkandidaten
Für die ermittelten Termkandidaten werden angegeben:
- Anzahl der Nominalphrasen
- Anzahl der zusammengesetzten Substantive
- Anzahl der einfachen Substantive
- Anzahl der Akronyme, Maßeinheiten u. Ä.
- Anzahl der unbekannten Wörter
Da im Hinblick auf die unterschiedlichen Extraktionskriterien Mehrfachzuweisungen möglich sind, kann sich die Summe dieser Angaben von der absoluten Anzahl der Termkandidaten unterscheiden.
Bisher erschienene Teile der Reihe
- Die Vorbereitung: Datenaufbereitung
- Die Durchführung: Extraktionsverfahren
- Der Output: Ergebnisaufbereitung