Patentklassifizierung beim Deutschen Patent- und Markenamt

Automatisierte Kategorisierung von eingehenden Patentanmeldungen

Neben der hier beschriebenen Patentrecherche beim Deutschen Patent- und Markenamt hält Machine Learning noch weitere beeindruckende Anwendungsfälle bereit, wie bspw. die automatisierte und autonome Kategorisierung von eingehenden Patenten. Mit einem etwa 4.000 Einträge umfassenden Katalog und 67.000 Anmeldungen allein 2017, kann die interne Zuordnung von Patenten eine mühsame und zeitraubende Aufgabe sein. Trotzdem ist die richtige Zuordnung zum verantwortlichen Prüfer von großer Wichtigkeit, da dieser nur eine kleine Anzahl von Kategorien bearbeitet. Maschinelles Lernen ist hier der Schlüssel diesen Prozess zu beschleunigen.

Die Herausforderung

Die meisten eingereichten Patente erreichen das Deutschen Patent- und Markenamt per Post, Fax oder mit einer speziellen, für das Amt entwickelten, Software. Da E-Mails keine rechtswirksame Wirkung entfalten, werden die meisten Patente immer noch in Papierform abgegeben und müssen nach Eingang digitalisiert werden. Ab da wird der Inhalt bewertet und der entsprechenden Abteilung zugeordnet. Bis jetzt übernahm diese Aufgabe eine eigene Gruppe in Handarbeit und verzögerte damit ungewollt den Prozess.

Wie Machine Learning neue Impulse setzt

Lass den Computer entscheiden

Um die Abarbeitung zu beschleunigen, kam das Deutsche Patent- und Markenamt zu dem Schluss, dass eine Software vielleicht helfen könnte das Problem zu lösen. Machine Learning hat den Charme von selbstständigem und unkontrolliertem Arbeiten und setzt damit menschliche Arbeitskraft für ansprechendere Aufgaben frei. Das bedeutet aber nicht, dass die Maschine "Out of the Box" funktioniert. Es erfordert zunächst immer ein anfängliches Training bei dem ein Data Scientist der Maschine anhand einfacher Beispiele beibringt, welches Ergebnis richtig oder falsch ist. Jedes Training verfeinert ein Modell, welches auf Vermutungen und Wahrscheinlichkeiten beruht und ab einem bestimmten Zeitpunkt signalisiert die Maschine, dass sie bereit ist eigene Entscheidungen zu treffen.

Wenn also ein Patent eingereicht wird, digitalisiert das Amt dieses zunächst und übergibt es einem System in welchem eine trainierte Maschine den Inhalt prüft. Anschließend berechnet sie die Wahrscheinlichkeit in welche der 4.000 Kategorien die Anmeldung passt und nutzt dafür vorherige Erfahrungen und Annahmen. Sobald die Maschine sicher ist das richtige Ergebnis zu haben, leitet sie die Anmeldung an den zuständigen Prüfer weiter. Ein Prozess, der bisher mehrere Tage in Anspruch nahm, wird jetzt deutlich beschleunigt.

Das obige Bild illustriert die Idee einer automatisierten Patent Kategorisierung. Direkt nach der Digitalisierung scannt das System autonom den Inhalt und wählt die relevanten Wörter eigenständig aus. Diese Wörter werden dann einem Modell zugeordnet und Beziehung zueinander gesetzt. Alle relevanten Begriffe formen eine Vorhersage-Wahrscheinlichkeit welche eine anwendbare Kategorie ausgibt. Der neue Ansatz in dieser Technik ist die Umformung von Worten in multidimensionale Vektorobjekte. Jeder Begriff (Wort oder Ausdruck) hat damit eine Vielzahl von zugeordneten Informationen, die multiple Dimensionen formen und eine einzigartige Position und Richtung innerhalb des Vektorraums (zweidimensional im obigen Bild) erlauben.

Die größte Hürde innerhalb der Trainingsphase ist die Anzahl der Trainingsdaten, die ein zuverlässiges Modell formen. Statistisch gesehen schwankt die Verteilung der Patente über die verschiedenen Kategorien. Der Großteil der Einreichungen betrifft entweder den Automobilbau, Elektronik oder Optik, wobei Anmeldungen in Kernphysik oder Bergbau eher selten sind. Das ist eine Herausforderung, wenn man eine Genauigkeit von mindestens 85% erreichen muss. Durch die Kombination verschiedener Machine Learning Methoden konnten wir ein robustes Modell erstellen, welches die Erwartungen sogar noch übertraf. Das System befindet sich bereits im täglichen Einsatz und verbessert den Anmeldeprozess spürbar.