Verwandte Worte

Mehr als nur einfache Synonyme

Bei der Anwendung von Machine Learning Methoden auf Texte findet der Verwandte Worte Service automatisch Verbindungen zwischen Begriffen. Dargestellt in Form einer Tag Cloud zeigt dieser Cognitive Service nicht nur Synonyme, sondern auch Elemente, die erst auf den zweiten Blick zu diesem Wort gehören. Einmal trainiert, arbeitet sich die Maschine durch einen großen Datensatz und erstellt ein Modell das es ihr erlaubt eigenständig Entscheidungen zu treffen, sollten neue Daten hinzukommen oder erneuert werden.

Sagen wir z.B. dass Sie eine größere Menge an Dokumenten haben, die kategorisiert und strukturiert werden müssen. Anstatt manuell die Daten zu sichten und den Inhalt zu klassifizieren, benötigen Sie ein System, dass Ihnen mit der täglichen Datenflut hilft Schritt zu halten. Diese Unmengen kommen entweder über einen E-Mail Server, hochgeladenen Dateien oder Informationen aus verschiedenen anderen Quellen. Versicherungen kämpfen täglich mit Kundeninformationen. Egal ob es sich dabei um Beschwerden, Schadensmeldungen oder Vertragsangelegenheiten handelt - die Nachrichten müssen korrekt adressiert und effizient bearbeitet werden.

Intelligente Verbindungen

Die technische Dimension des Ansatzes

Was passiert genau, wenn der Verwandte Worte Cognitive Service auf Daten angewendet wird? Zu Beginn trainiert ein Data Scientist oder Experte für maschinelles Lernen ein System und erstellt ein Modell indem er die Ergebnisse evaluiert. Ab einem gewissen Punkt ist die Maschine dann in der Lage auf Basis vorheriger Erfahrungen und Vermutungen selbst zu entscheiden und benötigt nur noch wenig menschliche Eingriffe. Um bei unserem obigen Beispiel zu bleiben, werden die Inhalte eines Dokuments nach Erhalt gescannt und die relevanten Worte in einen multidimensionalen Vektorraum übertragen. Jeder Begriff hat dabei einen eindeutigen Ort und das Modell fast zusammengehörige Wörter weitestgehend zusammen.

Das obige Bild zeigt deutlich, dass die zusammengefassten Worte nicht zwangsläufig in direktem Zusammenhang zum Obergriff stehen müssen. Einige Verbindungen dürften nur für einen Menschen nachvollziehbar sein. Obwohl ein Dachgeschoss Teil eines Hauses ist, aus der Sicht des Computers muss das nicht unbedingt der Fall sein. Mit Hilfe maschinellen Lernens "versteht" der Computer allerdings selbstständig den Inhalt, dessen Intention und die Bedeutung der Information.

Die Schönheit des Ansatzes

Wenn Sprache in Zahlen umgewandelt wird

Die Genialität der Idee Sprache zu vektorisieren und in ein mathematisches Modell zu übertragen, hat noch weitere Vorteile. Nicht nur das Auffinden von Beziehungen zwischen Begriffen ist damit möglich, sondern auch die einfache Übertragung in andere Sprachen. Technisch gesehen muss dabei das Modell nur von einem Sprachraum in einen anderen transferiert werden und dort nach ähnlichen Mustern gesucht werden.

Das funktioniert auch für Sprachen aus anderen Kulturkreisen, wie bspw. Arabisch, Koreanisch oder Sanskrit. Das Modell benötigt lediglich ausreichend Daten zum Trainieren und um einen belastbaren Vektorraum zu erstellen. Das Deutsche Patent- und Markenamt nutzt diesen Cognitive Service für die hauseigene Patentsuche aber andere Anwendungsgebiete haben wahrscheinlich ähnlich gelagerte Aufgabenstellungen.

Die ganze Idee an einem Beispiel

Um die Funktionsweise des Verwandte Worte Cognitive Services etwa besser zu illustrieren, suchen wir in einem Datenset mit deutschen Patenten nach dem mehrdeutigen Begriff "Flügel". Zunächst wird der Standort innerhalb des Vektormodells angezeigt. Zieht man dann den Marker auf naheliegende Dokumente, ändert sich der Spielraum und neue Begriffe werden gefunden.