Text Analogien

Bewege Worte innerhalb eines Vektorraums

Eine der größten Hürden moderner, text-basierter Suche ist die Vielfalt an Sprachen, die auf der Welt gesprochen werden. Unterschiedliche linguistische Herkunft, Alphabete, die nur in einzelnen Sprachfamilien vorkommen oder Wortbedeutungen, die sich unterscheiden, erschweren eine Suche ohne vorherige Übersetzung. Bis heute verhaften wir gewöhnlich in unserer Suche nur in den Sprachen, die wir selbst verstehen und ignorieren damit ein großes Potential, dass uns verschlossen bleibt, einfach weil wir den Inhalt nicht verstehen. Obwohl Englisch die moderne Lingua Franca ist und die Scientific Community Veröffentlichungen in Englisch fordert, halten die übrigen Inhalte einen Dornröschen-Schlaf. Mit dem Aufkommen von Machine Learning Methoden, wird das Problem in neue Bahnen gelenkt, die unser Wissen grundlegend erweitern werden.

Um neue Zusammenhänge innerhalb von Informationen zu erhalten, müssen Wörter mit Hilfe von Zahlen in die mathematische Sprache übersetzt werden. Jedes Wort besteht dabei aus einer Vielzahl von Informationen, wie bspw. die Dichte in einem Dokument, die Beziehung zu anderen Wörtern, die Häufigkeit in einem Datensatz etc. Das wiederum mündet in einer einzigartigen Position und Richtung innerhalb eines Vektorraums von wo aus der Computer Berechnungen anstrengen kann. Menschen sind normalerweise nicht fähig mehr als drei Dimensionen wahrzunehmen - Länge, Breite und Tiefe - und es fällt vielen schwer noch zusätzliche hinzuzufügen. Wörter, die mit Machine Learning Methoden verarbeitet wurden, bewegen sich innerhalb eines mehrdimensionalen Vektorraums mit hunderten Dimensionen.

Innerhalb dieses Raumes und mit Hilfe der mathematisch umgewandelten Wörter erhält man nun die Möglichkeit Beziehungen zwischen den Einträgen herzustellen. Sagen wir mal Sie suchen nach einer Beziehung zwischen Wörtern und beginnen mit einer einfachen Referenz "Deutschland zu Berlin ist wie Frankreich zu ..." was das Ergebnis "Paris" liefern würde. Die Maschine sucht und nach dem Wort "Deutschland" und berechnet den Abstand und die Richtung von "Berlin". Anschließend misst es die Entfernung zwischen beiden aus und nutzt diese Information um von "Frankreich" ausgehend das entsprechende Wort zu finden. Das richtige Ergebnis sollte dabei "Paris" sein. Das untenstehende Bild zeigt einen zweidimensionalen Raum (der Machine Learning Raum verfügt über weit mehr) und vermittelt die Idee hinter diesem Ansatz. Der Winkel und der Abstand zwischen "Deutschland" und "Berlin" wurde gespiegelt und auf "Frankreich" und "Paris" übertragen.

Was ist der Mehrwert?

Abgesehen von technischen Aspekten könnte man die Relevanz sicherlich zunächst in Frage stellen. Die Schönheit des Ansatzes liegt aber in der Übertragung über Vektorräume hinaus. Maschinelles Lernen verfolgt einen grundlegend anderen Suchansatz als normale Suchfunktionen. Anstatt ein Wort lediglich nach seiner Häufigkeit zu wichten, versucht Machine Learning die Bedeutung mathematisch zu "verstehen" indem es gleich mehrere Aspekte in der Beschreibung zuordnet, was in dem mehrdimensionalen Vektorraum endet. Interessanterweise lassen sich die sich so ergebenden Orte und Richtungen beinahe auf jede andere Sprache übertragen. Das englische "house" und das deutsche "Haus" haben die gleiche Position und Richtung wie das arabische Gegenstück "منزل". Wenn man also Text Analogien in seiner Muttersprache nutzt, kann man mit dieser Technik auch in fremdsprachigen Texten Entsprechungen finden.

Oder nehmen wir an Sie wollen eine Verbindungen zwischen Dokumenten herstellen um neue Informationen zu erhalten. Da die Maschine ein Modell basierend auf vorangegangenen Vermutungen und Vorhersagen erstellt hat, können einige Verbindungen zu neuen Erkenntnissen führen. Während man nach einem bestimmten Schlüsselbegriff und dessen Verhältnis zu einem anderen sucht, kann die Maschine ähnliche Verbindungen aufzeigen. Die Suche nach einer Medizin, die in Verbindung zu einem Symptom steht, könnte zu einem anderen Mittel in Beziehung stehen. Einfach aufgrund mathematischer Berechnungen.

Die ganze Idee an einem Beispiel

Wir haben eine Maschine für die folgende Demonstration programmiert, die zeigt, wie das System funktioniert. Zunächst benötigt das System ein Beispielverhältnis zwischen zwei Wörtern und ein weiteres Wort um eine Analogie zu finden. Anschließend berechnet das Modell die Position und die Richtung für das adaptierte Ergebnis. Interessanterweise bietet die Maschine noch weitere Funde, die auf den ersten Blick entweder zusätzliches Training erfordern oder bei genauerer Betrachtung neue Sichtweisen auf die Daten erlauben.