Wie Sie mit linguistischer Intelligenz finden, statt zu suchen

Einführung

Die Suche nach Informationen ist eine unserer Hauptaufgaben des Arbeitsalltags, zumindest, wenn wir einen „Bürojob“ haben. Fast 20 % der Arbeitszeit verschwenden wir mit der Suche nach Informationen. Gemessen an der durchschnittlichen 40-Stunden-Woche ist das ein gesamter Arbeitstag. Verschwenden? In der Tat – denn oft wird trotz der Zeit, die in die Suche investiert wird, nicht das Gesuchte gefunden.

Erfolglose Suchen können eine Vielzahl von Problemen nach sich ziehen:

  • Durch Suchen wird Arbeitszeit vergeudet. Auf diese Weise werden erfolgsrelevante Projekte blockiert.
  • Interne Inhalte werden irrtümlich mehrmals erstellt.
  • Interessenten finden auf der Website mit der seiteninternen Suche nicht das Gewünschte und springen wieder ab.
  • Vertriebsmitarbeiter finden relevante Inhalte nicht im CRM und verpassen Verkaufschancen.
  • Es drohen Konventionalstrafen, wenn im Kundendienst eine erforderliche Antwort nicht in der internen Wissensbasis gefunden wird und damit das Serviceversprechen nicht erfüllt wird.

Suchverfahren stellen die Schlüsseltechnologie im Informationszeitalter dar. Hier gilt es, anzusetzen. Um die vielfältigen Probleme rund ums Suchen und Finden zu meistern, muss das Suchen intelligent werden.

Warum schlechte Suche wehtut

Vergeudete Zeit und schlechte Effizienz

Informationsarbeitende und andere Menschen, die Bürotätigkeiten ausführen, verbringen viel Zeit mit dem Suchen von Informationen. Nicht nur im Internet, sondern vor allem auch im Intranet oder Enterprise-Wiki-System. Nahezu jeder kennt es: Man weiß, was man sucht, gibt einen Suchbegriff ein – und findet nichts. Man wiederholt die Suche, findet wieder nichts und geht davon aus, dass es die entsprechenden Inhalte noch nicht im System gibt. Gegebenenfalls erstellt man sie daher neu.

Dieses Szenario ist gleich doppelt ärgerlich: Suchen kostet Zeit, in der keine anderen Tätigkeiten verrichtet werden können, und es entsteht kein Gegenwert durch ein passendes Suchergebnis. Wird dann auch noch eine inhaltliche Dublette erzeugt, entsteht unnötiger Content. Das Intranet oder Enterprise-Wiki wird immer größer und unübersichtlicher, es entstehen tendenziell noch mehr sprachliche Varianten, die die Suche erschweren – ein Teufelskreis.

Vertane Chancen in Vertrieb und Marketing

Schlechte Suchmöglichkeiten, ob in internen Systemen oder auf Websites, können den Vertrieb eines Produkts bzw. einer Dienstleistung erschweren oder sogar ganz verhindern.

Szenario 1 siedelt sich noch im Bereich des Marketings an: Ein Interessent möchte etwas kaufen und sucht auf der Herstellerwebsite nach Informationen. Wenn er dort allerdings nicht findet, was er sucht, orientiert er sich womöglich zur Konkurrenz hin. Und das, ohne jemals in Kontakt mit dem Unternehmen zu treten.

Szenario 2 setzt voraus, dass aus Interessenten bereits Leads geworden sind. Um aus Leads allerdings auch Kunden zu machen, sind einige Vertriebsschritte notwendig. Wenn Vertriebsmitarbeiter nun nach bestimmten Informationen im CRM suchen und auf dieser Basis ihre Kampagnen durchführen, kann es schnell vorkommen, dass relevante Opportunities nicht gefunden und daher in den Kampagnen auch nicht berücksichtigt werden. Auf diese Weise gehen wichtige Verkaufschancen verloren.

Vertragsstrafen

Häufig sind Serviceleistungen ein fester Vertragsbestandteil zwischen Kunde und Dienstleister oder Produzent. In diesem Kontext kann es vorkommen, dass Servicemitarbeiter verpflichtet sind, eine Lösung zu einem bestimmten Problem zu liefern. Wenn die Lösung nicht in der internen Wissensbasis gefunden werden kann, kann sie letztendlich auch nicht dem Kunden übermittelt werden. Konventionalstrafen für den Dienstleister oder Produzent sind hier die mögliche Folge.

SEO und Suchen

Dieser Abschnitt beschreibt kein Problem, das sich aus erfolglosen Suchen ergibt. Vielmehr soll es hier um eine besondere Praxis gehen, die es erforderlich macht, dass Suchvorgänge intelligent vonstattengehen. Die Rede ist von Suchmaschinenoptimierung (SEO).

Grundsätzlich gilt: Wenn man weiß, nach welchem Wort man suchen muss und das Glück hat, dass dieses immer konsistent verwendet wurde, kommt man in der Regel problemlos zu einem Ergebnis. Das gilt intern, z. B. im Enterprise-Wiki, aber auch für Kunden und Interessenten, die mithilfe einer Suchmaschine nach einem geeigneten Produkt oder einer Dienstleistung suchen. Um in der Liste der Suchmaschinentreffer möglichst weit oben zu stehen, betreiben Unternehmen SEO. Ein SEO-Prinzip, das schon seit vielen Jahren Bestand hat, besagt, dass das Suchmaschinenranking positiv beeinflusst wird, wenn zu einem Begriff verschiedene Benennungen im Text auftauchen (Quelle).

Das bewusste Verwenden von Synonymen widerspricht der Grundidee der terminologischen Konsistenz. Das Vorgehen hat zweifelsfrei Vorteile in Hinblick auf gängige Suchmaschinen. Allerdings wird es schwer, die SEO-optimierten Inhalte intern zu finden, z. B. im Enterprise-Wiki. Die Suche eines solchen Systems verwendet andere Algorithmen als gängige Web-Suchmaschinen – hier ist es wichtig, zu wissen, mit welcher Benennung man Suchtreffer erzielen kann.

Warum ist es so schwer, Dinge zu finden?

Suchergebnisse hängen immens von der verwendeten Suchmaschine ab. Die meisten Programme und Websites greifen auf Standardverfahren zurück, die 1:1 nach der eingegebenen Zeichenkette suchen. Besonders die deutsche Sprache bietet allerdings viele Möglichkeiten, einen Sachverhalt auszudrücken. Von Synonymen über Ableitungen bis hin zu syntaktischen Varianten – von Abweichungen in Hinblick auf Rechtschreibung gar nicht erst zu reden. Dies stellt das 1:1-Suchprinzip allerdings vor große Herausforderungen.

Als Beispiel sei das Wort „Emissionsreduktion“ zu nennen. Es handelt sich um ein Kompositum, eine Wortbildung aus „Emission“ und „Reduktion“. Es ist möglich, dass eine Person in ihrer Wissensbasis nach „Emissionsreduktion“ sucht und Erfolg hat. Ebenso ist es möglich, dass folgende Varianten genutzt werden, die mit gängigen Suchmethoden nicht oder nur unzureichend gefunden werden:

  • Ableitungen wie „Emissionsreduzierung“
  • Synonymvarianten wie „Emissionsminderung“
  • Syntaktische Varianten wie
    • „Reduzierung der Emission“
    • „Emission reduzieren“
  • Partielle Matches wie
    • „CO2-Emissionsreduktion“
    • „Kohlendioxid-Emissionsreduktion“
    • „Kohlenstoffdioxid-Emissionsreduktion“
  • Diskontinuitäten wie „Emissions- bzw. Abgasreduktion“

Davon ausgehend können auch Mischformen der verschiedenen Varianten auftreten. Auf diese Weise kommt es zu einer Vielzahl von denkbaren Suchbegriffen, von denen nur einer zu einer erfolgreichen Suche führt:

Gängige Suchverfahren berücksichtigen durchaus sprachliche Kriterien. Allerdings ist hierbei die linguistische Analysetiefe zu gering, um das sprachliche Spektrum an möglichen Suchanfragen abzudecken. Ein Beispiel für sprachbasierte Verfahren mit geringer linguistischer Analysetiefe stellt das weit verbreitete Stemming-Verfahren dar.

Stemming

Die Grundidee hinter Stemming ist, dass Wörter auf einen Wortstamm zurückgeführt und die Wortstämme miteinander verglichen werden. Ein Stemming-Verfahren muss für jede Sprache entwickelt werden. Dabei ist zu beachten, dass Stemming bei manchen Sprachen besser, bei anderen schlechter bzw. gar nicht funktioniert.

Das folgende Beispiel stellt einen Stemming-Vorgang vereinfacht dar, der die Ähnlichkeit von „Änderung“ und dem Plural „Änderungen“ ermitteln soll (verwendetes Tool):

  • Änderungen ↔ Änderung
    • Großbuchstaben normalisieren ⇒ änderungen ↔ änderung
    • Umlaute normalisieren ⇒ anderungen ↔ anderung
    • Endung "en" entfernen ("stemmen") ⇒ anderung ↔ anderung
    • Endung "ung" entfernen ("stemmen") ⇒ ander ↔ ander

Außerdem ist Stemming in der Lage, Wörter als Varianten voneinander zu klassifizieren, die sich nur durch ein Genitiv-s unterscheiden.

Bezogen auf das oben gezeigte Varianten-Cluster von „Emissionsreduktion“ würde mit einem gängigen Stemming-Verfahren kein Treffer gefunden:

Sogar die einfachste Ableitungsform, „Emissionsreduzierung“, wird vom verwendeten Stemmer, dem Snowball-Stemmer, nicht als Variante erkannt:

Beim Stemming kann es zu nicht erkannten Varianten kommen, aber ebenso zu falschen Matches. Ein Beispiel stellt die Suche nach Varianten von „Sicherheit“ dar, die ebenfalls mithilfe des Snowball-Stemmers durchgeführt wurde:

  • Sicherheit ⇒ *sich
  • sicher ⇒ *sich
  • Sicherung ⇒ sicher
  • sicherlich ⇒ *sich
  • sich ⇒ sich

„Sicherheit“, „sicher“ und „sicherlich“ werden falsch gestemmt – ihr Wortstamm lautet „sicher“ anstatt „sich“. So werden die drei Wörter zwar als Varianten erkannt, dies geschieht jedoch unter einer falschen grammatikalischen Annahme. „Sicherung“ wird korrekt auf „sicher“ gestemmt, „sich“ wird korrekt auf sich selbst abgebildet. Auf diese Weise würde eine Suchmethode, die auf Stemming basiert, womöglich aufgrund der o. g. falsch gestemmten Wörter „sich“ als Variante dieser Wörter ermitteln.

Zusammenfassend: Stemming, das Zurückführen von Wörtern auf ihren Wortstamm, schafft es nicht alleine, die Vielfalt sprachlicher Varianten in Suchbegriffen zufrieden stellend abzudecken.

Fuzzy-Suche

Neben dem Stemming-Verfahren greifen Suchanwendungen in manchen Fällen auch auf Fuzzy-Suchmechanismen zurück. Fuzzy-Suchmechanismen sind über viele freie Software-Bibliotheken verfügbar.

Die grundlegende Funktionsweise der Fuzzy-Suche besteht darin, dass die Ähnlichkeit von zwei Strings auf Zeichenbasis bestimmt wird. Für die Ähnlichkeit wird ein bestimmter Schwellenwert festgelegt. Mit einem niedrigen Schwellenwert erhält man viele Treffer, dafür auch viele Falschmeldungen. Mit einem hohen Schwellenwert reduziert man die Falschmeldungen, bekommt aber auch weniger Treffer.

Es kommen keine Kenntnisse über Sprache zum Tragen. Dies hat den Vorteil, dass Fuzzy-Matching für alle Sprachen funktioniert. Außerdem ist Fuzzy-Matching robust gegen Tippfehler.

  • Förderwerke ↔ Förderwerk ⇒ 95,65 % Ähnlichkeit und damit wahrscheinlich ein Treffer
  • Baum ↔ Bäume ⇒ 60 % Ähnlichkeit und damit wahrscheinlich kein Treffer

Übertragen auf das Variantencluster zu „Emissionsreduktion“ erzielt eine Fuzzy-Suche folgende Treffer mit 90 % und rund 79 % Ähnlichkeit (verwendetes Tool):

Die Fuzzy-Suche bezieht keine sprachlichen Kriterien ein, sondern ist rein statistisch basiert. Daraus resultiert, dass Wörter als Treffer erkannt werden, die zwar ähnliche Zeichen aufweisen, aber eine gänzlich andere Bedeutung tragen. Ein Beispiel:

Baumhaus ↔ Bauhaus ⇒ 95 % Ähnlichkeit

Eine reine Fuzzy-Suche würde als Ergebnis auf den Suchbegriff „Baumhaus“ „Bauhaus“ liefern – hierbei handelt es sich nicht um einen sinnvollen Treffer.

Linguistische Intelligenz

Unsere Sprache ist so vielfältig und komplex, dass Stemming- und stringbasierte Verfahren an vielen linguistischen Phänomenen scheitern. Die Lösung für diese Problematik kann sein, linguistische Verfahren in die Suche zu integrieren. Dabei besonders geeignet: Morphemwörterbücher, die iterativ über viele Jahre und Projekte hinweg aufgebaut werden können. Ein Beispiel hierfür ist das Morphemwörterbuch der Congree Linguistic Engine.

Eine so genannte linguistische Intelligenz kann Wörter in ihre kleinsten bedeutungstragenden Einheiten, die Morpheme, aufteilen. Anschließend können Sätze von ihren Morphemen ausgehend umfassend analysiert werden.

Eine Zerlegung des Worts „Emissionsreduzierung“ in seine Morpheme gestaltet sich wie folgend:

Auf dieser Basis lassen sich ganze Sätze analysieren, z. B. „Die Firma konnte eine hohe Emissionsreduzierung vorweisen.“

Intelligent suchen – besser finden

Wenn ein Suchbegriff eingegeben wird, erledigt eine linguistisch basierte Suche vereinfacht gesagt eins: Sie weiß, durch welche sprachlichen Phänomene Varianten zum Suchbegriff entstehen können und kann auf dieser Basis die Varianten im Suchkorpus finden. Dazu ist es nötig, dass die Inhalte des Suchkorpus analysiert vorliegen.

Bei der Suche werden nicht nur korrekte Varianten einbezogen, sondern auch potenzielle Rechtschreibfehler „mitgedacht“:

Gängige Suchen produzieren keinen Treffer, wenn der Suchbegriff „Emisionsreduzierung“ lautet, da es sich nicht um einen 1:1-Treffer handelt und auch ein Stemming erfolglos wäre. Bei einem Abgleich mit einem Morphemwörterbuch hingegen würde der Rechtschreibfehler erkannt und für den Suchprozess normalisiert.

Eine Suche mit linguistischer Intelligenz findet allerdings nicht nur Varianten, die einen Rechtschreib- oder Tippfehler aufweisen, sondern auch Bindestrichvarianten und weitere terminologische Varianten. Im Folgenden soll ausgeführt werden, welche linguistischen Phänomene zu Benennungsvarianten führen können und wie linguistisch intelligente Suchmechanismen diese ermitteln können.

Flexionen, Fugen- und Bindestrichvariante

Bereits kleine Abweichungen an einem Wort können dazu führen, dass gängige Suchmethoden keinen Treffer für dieses Wort erzielen können. Das trifft z. B. auf flektierte Formen und Fugenvarianten zu.

Im Rahmen einer Flexion verbleibt ein Wort in seiner Wortart, aber verändert sich in Hinblick auf Kasus, Numerus, Genus, Tempus und weitere grammatikalische Merkmale. Ein Beispiel ist „Motorengeräusch“ (Singular) ↔ „Motorengeräusche“ (Plural). Für eine Suche mit gängigen Suchmethoden bedeutet das: Wird z. B. nach „Motorengeräusche“ gesucht und im Suchkorpus kommt das Wort „Motorengeräusch“ vor, werden keine Treffer erzielt.

Was macht die linguistisch basierte Suche anders? Die Antwort: Sie bricht Wörter auf ihre unflektierte Grundform herunter und führt auf dieser Basis eine Suche durch. So können auch Wörter mit abweichenden grammatikalischen Merkmalen gefunden werden. Das folgende Bild zeigt den Suchbegriff „Evaluationsergebnis“, für den die linguistische Intelligenz den Treffer „Evaluationsergebnisse“ findet:

Bei so genannten Fugenvarianten unterscheiden sich die beiden Wörter sogar nur durch einen einzigen Buchstaben, das Fugen-s. Es gibt im Deutschen zahlreiche Komposita, bei denen zwischen den Kompositumsgliedern ein s eingefügt wird. Bei vielen Komposita ist die Schreibung mit Fugen-s die einzig korrekte Schreibweise, z. B. bei „Frühlingssturm“. Es gibt jedoch auch Komposita, die mit und ohne Fugen-s korrekt sind, z. B. „Ölstandanzeige“ bzw. „Ölstandsanzeige“. Wird nun beim Suchen mit einer gängigen Suchmethode nach einer „Ölstandanzeige“ gesucht, während im Suchkorpus nur Texte mit „Ölstandsanzeige“ existieren, kommt es zu keinen Treffern. Eine Suche mit linguistischer Intelligenz bricht auch hier die Wörter auf ihre Grundformen herunter und kann daher auch Fugenvarianten problemlos auffinden.

Im Deutschen existiert die Möglichkeit, Komposita als zusammengeschriebenes Wort oder mit einer Bindestrichschreibweise zu realisieren. Unter bestimmten Umständen ist die Verwendung eines Bindestrichs die einzige korrekte Schreibweise, z. B. bei Zusammensetzungen mit Akronymen wie „TÜV-Bericht“ oder „LKW-Anhänger“. Bei der Mehrzahl der Komposita ist die Bindestrichsetzung fakultativ und dient primär der Lesbarkeit der Komposita. Hier sind entsprechend gleich zwei Schreibweisen korrekt, z. B. bei „Spendezylinderkonzept“ und „Spendezylinder-Konzept“. Gängige Suchmethoden scheitern hier jedoch ebenso wie bei flektierten Formen und Fugenvarianten. Eine linguistisch basierte Suche leitet hingegen die Grundformen von Suchbegriff und aufzufindendem Wort ab und kann auf dieser Basis Übereinstimmungen finden. Das folgende Beispiel zeigt, wie eine linguistisch basierte Suche eine Variante im Text findet, die nicht nur eine Bindestrichvariante ist, sondern auch noch eine Flexion in Form eines Genitiv-s vorweist:

Transformation und syntaktische Varianten

Das Wort „Transformation“ ist in der Linguistik mehrdeutig belegt. Im Kontext der linguistisch basierten Suche versteht man darunter „oberflächenstrukturelle[n] Paraphrasenbeziehungen zwischen sprachlichen Ausdrücken mit gleicher syntaktischer Umgebung“ (Quelle: Bußmann, Hadumod (Hg.) (2008): Lexikon der Sprachwissenschaft. Vierte, durchgesehene und bibliographisch ergänzte Auflage unter Mitarbeit von Hartmut Lauffer. Alfred Kröner Verlag, Stuttgart, S. 748).

Emissionsreduzierung ↔ Reduzierung von Emission ↔ Reduzierung der Emission

Die Suche mit linguistischer Intelligenz zerlegt zunächst einmal den Suchbegriff in die Kompositumsglieder „Emission“ und „Reduzierung“.

Die zu Grunde liegenden Transformationsregeln stellen sicher, dass das Kompositum mit seinen beiden Bestandteilen auf mögliche syntaktische Varianten – einmal mit Dativ + von, einmal mit Dativ + der – abgebildet werden kann. Eine nicht-linguistische Suche zerlegt keine Komposita und kann auch nicht auf Transformationsregeln zugreifen, sodass die genannten Varianten nicht gefunden werden.

Im Rahmen einer Transformation wird eine einfache Nominalphrase wie „Emissionsreduzierung“ auf eine komplexe Nominalphrase wie „Reduzierung von Emission“ abgebildet.

Daneben existieren noch Ableitungsvarianten wie „Evaluationsergebnis“ ↔ „Evaluierungsergebnis“. Hierbei handelt es sich um Ableitungen, bei denen die abgeleitete Variante derselben Wortart angehört wie das ursprüngliche Wort. Beim Ermitteln dieser Varianten ist die oben dargestellte Zerlegung von Wörtern in Morpheme zentral. Die linguistische Intelligenz zerlegt zunächst einmal den Suchbegriff: „Evaluationsergebnis“ = evaluieren+tion+ergebnis

Die im durchsuchten Textkorpus enthaltenen Wörter sind ebenfalls mit morphologischen Informationen angereichert – z. B. jener, dass „Evaluierungsergebnis“ sich wie folgt zusammensetzt: evaluieren+ung+ergebnis

Ein Abgleich der beiden Wörter ergibt, dass beide Wörter dieselbe morphologische Struktur aufweisen:

Synonyme und Begriffsrelationen

Unter einem Synonym versteht man ein Wort, das dasselbe bedeutet wie ein anderes, unterschiedliches Wort.  Denkt man an das Wort „Emissionsreduzierung“, so sind z. B. „Emissionsminderung“ und „Ausstoßminderung“ Synonyme.

Während bei „Emissionsminderung“ nur das Kompositumsglied „Reduzierung“ durch ein Synonym ersetzt wird, ist „Ausstoßminderung“ ein Synonym, das sich aus zwei Synonymen innerhalb des Kompositums zusammensetzt. Für die Suche in einer Wissensbasis spielt es keine Rolle, ob eine Synonymvariante teilweise oder ganz aus Synonymen zu den Kompositumsgliedern des Suchbegriffs besteht.

Gängige Suchmethoden scheitern oft schon an kleinen orthografischen, typografischen oder grammatikalischen Abweichungen. Synonyme sind noch einmal deutlich komplexer zu analysieren. Angenommen, es würden sogar Synonyme explizit hinterlegt, würden gängige Suchmethoden an sämtlichen Komposita-Synonymvarianten scheitern, da diese wieder eine Abweichung von den hinterlegten Einzelsynonymen darstellen würden.

Eine linguistisch intelligente Suche macht das Auffinden von komplexen Synonymvarianten durch eine Abfolge von verschiedenen Analyseschritten möglich, die anhand eines Beispiels beschrieben werden sollen.

Nehmen wir an, eine Autorin sucht nach „Ausstoßminderung“ und im Textkorpus kommt das Wort „Emissionsreduzierung“ vor. Beide Wörter durchlaufen folgende Schritte – das Wort im Textkorpus während seiner Analyse, der Suchbegriff während des Suchvorgangs:

Partielle Matches

Den folgenden Fall kennt vermutlich jeder, der regelmäßig eine Textsuche verwendet, z. B. in einem Enterprise-Wiki-System: Man gibt einen Suchbegriff wie „Bordfunk“ ein und findet keinen Treffer, weil das Wort nur in einer komplexen Wortzusammensetzung wie „GSM-R-Bordfunkgeräte“ vorkommt.

Gängige Suchmethoden verfügen in manchen Fällen über ein näherungsweises String-Matching, z. B. auf Basis der Levenshtein-Distanz. Um so genannte partielle Matches zuverlässig zu ermitteln, ist jedoch eine linguistisch basierte Suche Mittel der Wahl.

Die linguistisch basierte Suche geht folgendermaßen vor: Der Suchbegriff wird in seine Kompositumsglieder zerlegt: „Bordfunk“ → Bord + Funk

Das im Text vorliegende komplexere Kompositum wird ebenso aufgespalten:

„GSM-R-Bordfunkgeräte“ → GSM-R + Bord + Funk + Geräte

Nun wird beim Abgleich der Kompositumsglieder ermittelt, dass „Bord“ und „Funk“ sowohl im Suchbegriff als auch im Text vorkommen.

Es wird ein partielles Ergebnis ausgegeben:

Diskontinuität

Die mitunter komplexesten Varianten eines Worts bringt das linguistische Phänomen der Diskontinuität hervor. Stellen Sie sich vor, Sie suchen in Ihrem Enterprise-Wiki nach „Windkraftwerk“ und erhalten keine Treffer, weil in den gesuchten Texten „Wind- und Wasserkraftwerk“ steht. Die Auslassung nach „Wind“ und das zwischengeschobene „und Wasser[…]“ sorgen dafür, dass Ihr Suchbegriff nicht als zusammenhängendes Wort, sondern diskontinuierlich in Ihrem Enterprise-Wiki vorkommt.

Ein ähnliches Beispiel zeigt der folgende Screenshot:

Hier kommt der Suchbegriff nicht nur mit einem Rechtschreibfehler, sondern auch diskontinuierlich im Text vor.

Die linguistisch basierte Suche sucht nicht 1:1 nach Strings, sondern analysiert Satz für Satz grammatikalisch.

„Designprozess“ wird in „Design“ und „Prozess“ aufgespalten. „Design- und Herstellungsprozeß“ wird normalisiert, d. h. vereinfacht gesagt auf eine Form ohne Auslassung und mit neuer Rechtschreibung zurückgeführt. Danach wird es in die Kompositumsglieder aufgespalten: „Designprozeß und Herstellungsprozeß“ → „Designprozess und Herstellungsprozess“ → „Design“ + „Prozess“ [und] „Herstellung“ + „Prozess“. Auf diese Weise kann ein diskontinuierlicher Match erzielt werden.

Dasselbe Prinzip gilt für komplexe Nominalphrasen wie „der indizierte und mechanische Wirkungsgrad“. Wird nach „indizierter Wirkungsgrad“ gesucht, wird der Suchbegriff auf „indiziert“ und „Wirkung“ + „Grad“ heruntergebrochen.

Der „indizierte und mechanische Wirkungsgrad“ wird in „indiziert“ und „Wirkung“ + „Grad“ sowie „mechanisch“ und „Wirkung“ + „Grad“ zerlegt. Auf diese Weise kann die linguistisch intelligente Suche auch hier einen diskontinuierlichen Match ermitteln.

Relevante Treffer finden

Es mag paradox klingen, aber neben dem Nicht-Finden von Informationen kann es bei gängigen Suchverfahren auch dazu kommen, dass zu viele Ergebnisse gefunden werden. Die Suche nach genau den Treffern, die relevant sind, gleicht dann schnell einer Suche nach der berühmten Nadel im Heuhaufen.

Ergebnisgewichtung

Linguistisch basierte Suchverfahren helfen bei der Suche nach relevanten Treffern, indem sie eine intelligente Ergebnisgewichtung anwenden. Zum einen kommt das Tf-idf-Maß zum Tragen. Vereinfacht gesagt liegen diesem Maß zwei Annahmen zu Grunde:

  1. Schlagwörter, die in einem Dokument häufig vorkommen, sind relevanter als weniger häufige Schlagwörter. Man spricht hier von der so genannten Termfrequenz.
  2. Schlagwörter, die in vielen Dokumenten des Dokumentbestands, also z. B. in einem Enterprise-Wiki, vorkommen, sind weniger wichtig als die, die nur in wenigen Dokumenten vorkommen. Das Phänomen wird als inverse Dokumenthäufigkeit bezeichnet.

Anhand der beiden Faktoren werden besonders relevante Schlagworte statistisch basiert ermittelt – direkt während des Suchvorgangs.

Ergänzt wird die Gewichtung nach dem Tf-idf-Maß durch eine semantische Suche. Die semantische Suche ist die am tiefsten greifende Analyse der linguistisch basierten Suche. Sie greift direkt auf die Bedeutung von Wörtern zu. Daraus leitet sie eine Gewichtung anhand der Häufigkeit semantischer Merkmale ab, die in einem Text vorkommen. Das bedeutet konkret, dass die linguistisch basierte Suche ermittelten potenziellen Schlagwörtern im Textkorpus jeweils eine Semantikklasse zuordnet: Agent, Ding, Instrument, Material, Prozess und viele weitere. Auf Basis der Semantikklassen wird statistisch die Relevanz der Schlagwörter ermittelt: Je mehr Schlagwörter pro Klasse auftauchen, desto höher werden sie in Hinblick auf ihre Relevanz gewichtet.

Facettierte Suche mit Wortwolken

Ein weiterer Weg, um einfach an relevante Treffer zu gelangen, ist die Verwendung einer facettierten Suche. Darunter versteht man im Kontext der linguistisch basierten Suche die Einschränkung der Treffermenge anhand bestimmter Schlagwörter im Trefferumfeld, so genannter Deskriptoren. Dabei ist zwischen Deskriptoren und freien Deskriptoren zu unterscheiden. Deskriptoren sind fest vergebene Metadaten, mit denen ein Text ausgezeichnet wurde. Freie Deskriptoren sind Schlagwörter, die von der linguistischen Suche ermittelt und als relevant eingestuft wurden. Um die beiden Arten von Deskriptoren benutzerfreundlich in den Suchprozess zu integrieren, bieten sich Wortwolken an:

Die Deskriptoren kommen ins Spiel, nachdem auf Basis des Suchbegriffs Suchergebnisse ermittelt wurden. Die Menge der Suchergebnisse können nun mithilfe der Deskriptoren oder freien Deskriptoren eingeschränkt werden. Wird einer davon ausgewählt, bedeutet dies, dass nun nur noch jene Suchergebnisse gezeigt werden, in deren textuellem Umfeld der jeweilige Deskriptor oder freie Deskriptor vorkommt.

Innerhalb der Wortwolken, in denen die Deskriptoren und freien Deskriptoren angeordnet sind, wird deren jeweilige Relevanz durch die Größe des Begriffs visuell angezeigt. Auf diese Weise können die Treffer nicht nur nach der eigenen Relevanz gewichtet, sondern auch mit besonders relevanten Schlagwörtern gefiltert werden.

Benutzerfreundlichkeit ist relevant

Die facettierte Suche mit Wortwolken ist nicht nur eine Möglichkeit, Treffermengen zu verfeinern – sie bietet zudem auch ein hohes Maß an Benutzerfreundlichkeit. Die Darstellung durch Wortwolken mit typografischer Hervorhebung von besonders relevanten Wörtern erleichtert den Suchprozess. Der Suchende muss sich nicht mehr die relevanten Deskriptoren merken oder herleiten, welche Wörter für die Suche noch nützlich sein könnten. Diese Aufgabe übernimmt die linguistische Intelligenz.

Ein weiterer Aspekt einer benutzerfreundlichen Suche ist die Autovervollständigung:

Die Autovervollständigung ist besonders dann nützlich, wenn man den Suchbegriff nicht ganz genau kennt. Es werden beim Tippen Deskriptoren oder freie Deskriptoren vorgeschlagen, zu denen es im Datenbestand auf jeden Fall Treffer gibt.

Integrationsmöglichkeiten

Nachdem bisher diskutiert wurde, welche Vorteile eine linguistisch basierte Suche bietet, lautet nun die Fragestellung, wie sich diese integrieren lässt. Fakt ist, dass praktisch jedes Enterprise-Wiki, jeder Dokumentenbestand bereits eine Suchmöglichkeit bietet. Häufig basieren diese auf Solr, Lucene oder Elasticsearch. Diese Suchmöglichkeiten sollen durch eine linguistisch basierte Suche nicht gänzlich ersetzt werden. Der Ansatz ist vielmehr, die linguistisch basierte Suche als Erweiterung der verwendeten, gängigen Suchmethoden zu integrieren. Denkbar ist es, den Index einer Suche, z. B. von Solr in Atlassian Confluence, anzureichern. Eine Alternative hierzu ist das Einbinden eines Standard-Webcrawlers, der verwendet wird, um die linguistisch basierte Suche einen eigenen Index aufbauen zu lassen. Beim angereicherten Index läge der Vorteil darin, dass die bereits gewohnte Suche verwendet werden könnte – ohne Umgewöhnung, lediglich mit mehr Möglichkeiten. Der Webcrawler-Ansatz hingegen würde die Suche über eine eigene Anwendung aufs zu durchsuchende System zugreifen lassen.

Fazit

Einen unternehmensweiten Wissens- und Dokumentenbestand aufzubauen, führt bestenfalls zu einer optimalen Wissenskommunikation und Vernetzung von Fakten. Bei wachsenden Beständen besteht allerdings irgendwann die Gefahr, dass Inhalte mit den gängigen integrierten Suchmethoden nicht mehr gefunden werden. Das ist bestenfalls ärgerlich und mitunter sogar geschäftsschädigend.

Die Lösung ist nicht, existierende Suchmethoden von Grund auf zu ersetzen. Vielmehr ist es sinnvoll, ergänzend eine linguistisch basierte Suche einzusetzen. Diese erkennt anhand ihrer linguistischen Intelligenz nicht nur 1:1-Treffer, sondern liefert auch Suchergebnisse, bei denen es sich um sprachliche Varianten zum Suchbegriff handelt. Hierbei werden grammatikalische Varianten wie flektierte Formen ebenso gefunden wie Bindestrichschreibungen. Auch komplexe Varianten wie Synonyme, Diskontinuitäten und partielle Matches kann eine linguistisch basierte Suche ermitteln und als Treffer anbieten. Darüber hinaus ist eine solche Suchmethode robust gegenüber Tippfehlern.

Linguistische Intelligenz findet nicht nur viele Varianten und daher mehr Suchergebnisse als eine gängige Suchmethode. Sie verfügt darüber hinaus auch über eine Ergebnisgewichtung anhand statistischer und semantischer Verfahren. So können aus den Suchergebnissen gezielt die besonders relevanten Treffer ermittelt werden.

Benutzerfreundliche Features wie eine Autovervollständigung oder eine facettierte Suche mit Wortwolken zeichnen eine Suche auf Basis linguistischer Intelligenz ebenfalls aus.

Mit einer linguistisch intelligenten Suche wie Congree Search kann die Erfolgsrate von Inhaltssuchen im Unternehmen massiv gesteigert werden. Dabei kann Congree Search in bestehende Suchoberflächen eingebunden oder aber in einer separaten Anwendung genutzt werden.

Mehr Wissen
Tags:
  • Congree
  • Wissen
  • Whitepaper
  • Integration
  • Terminologie