Die Vorbereitung: Datenaufbereitung

Teil 1 von 3 der Reihe "Linguistische Termextraktion – der erste Schritt zum erfolgreichen Terminologieaufbau"
Blog-Beitrag vom 18.05.2021

Bei der Durchführung einer linguistischen Termextraktion werden nur die Textanteile Ihrer Dokumente berücksichtigt – und berechnet! Auszeichnungselemente, Grafiken und dergleichen werden vorab ausgeblendet. Einen Näherungswert für die Textmenge, die beispielsweise in einer MS-Word-Datei enthalten ist, erhalten Sie, wenn Sie die Anzahl der „Zeichen (mit Leerzeichen)“ (Menüoption Überprüfen > Wörter zählen) ermitteln.

Für eine linguistische Termextraktion eignen sich viele Dateiformate, darunter die folgenden:

  • HTML, XML
  • DOC, DOCX, XLS, XLSX, PPT, PPTX
  • ODT, ODS
  • EPUB

Mit Einschränkungen lassen sich die Dateiformate TXT und PDF für eine linguistische Termextraktion heranziehen.

Bei TXT-Dateien werden aufeinander folgende Textzeilen als Fließtext interpretiert. So werden beispielsweise Überschriften, die nicht durch eine Leerzeile abgesetzt sind, mit unmittelbar folgenden Textzeilen zusammengezogen. Sofern die Überschriften nicht durch ein Satzendezeichen abgeschlossen sind, ist für die linguistische Analyse in der Folge nicht mehr ersichtlich, dass unterschiedliche Struktureinheiten vorliegen. Dies kann zu Fehlanalysen führen. Der gleiche Effekt wird auch bei Inhaltsverzeichnissen, Listen, Tabellen und ähnlichen Textelementen auftreten, in denen die einzelnen Strukturelemente weder durch Leerzeichen noch durch Satzendezeichen voneinander abgesetzt sind.

Aus PDF-Dateien lassen sich Textanteile in der Regel nicht völlig verlustfrei extrahieren. So werden Wortformen an Silbentrennpositionen oftmals auseinandergerissen, sodass die einzelnen Teile nur als unbekannte Wörter ermittelt werden können. Auch werden Layout- und Strukturelemente (z. B. Spaltensatz, Kopf- und Fußzeilen) nicht immer korrekt abgebildet, sodass es in der Folge vermehrt zu Fehlanalysen der Sprachverarbeitungskomponenten kommen kann. Abhängig vom Erstellungsverfahren kann es auch vorkommen, dass aus PDF-Dateien keine Textanteile extrahiert werden können. Entsprechende Dateien bleiben bei der Termextraktion unberücksichtigt – es fallen dafür auch keine Kosten an.

Unabhängig vom Dateiformat entscheidet es sich letztlich an den Inhalten, ob eine Datei für die Termextraktionsaufgabe geeignet ist. Eine Spreadsheet-Datei, die überwiegend Zahlenkonstrukte enthält, trägt selbstverständlich wenig zu den Termextraktionsergebnissen bei. Zwar werden in der linguistischen Termextraktion zusätzliche Verfahren eingesetzt, um für die Termextraktionsaufgabe unplausible Datensätze auszufiltern, doch obliegt es dem Auftraggeber, eine inhaltlich sinnvolle Auswahl der Dateien für die Termextraktion vorzunehmen.

tl;dr

Für einen erfolgreichen Terminologieaufbau ist eine gute Vorbereitung unabdingbar. Um Terminologie zu extrahieren, müssen die vorliegenden Daten erst aufbereitet werden. Unabhängig vom Dateiformat entscheidet es sich letztlich jedoch an den Inhalten, ob eine Datei für die Termextraktionsaufgabe geeignet ist.