Gesichtserkennung

Wer ist auf diesem Bild?

Mit dem Aufkommen von Digitalkameras und speziell Smartphones erlebte die Alltagsfotografie in den letzten Jahren einen steilen Aufschwung. Etwa eine Billion Bilder (das ist eine Zahl mit zwölf Nullen) wurden 2017 aufgenommen - eine Steigerung um 100 Milliarden zum Jahr 2016. Eine Vielzahl davon waren Bilder mit Gesichtern wie bspw. Selfies. Die verwendeten Kameras verfügen heutzutage mittlerweile über ausgezeichnete Techniken um Muster wie z.B. Gesichter zu erkennen und nutzen dabei hauptsächlich Unterschiede im Kontrast, in der Farbe und in geometrischen Strukturen zur Erkennung.

Machine Learning nutzt diesen technologischen Ansatz um automatisch zu erkennen welche Personen auf dem Bild zu sehen sind. Das erfordert zunächst ein anfängliches Training, ab einer bestimmten Stufe hat die Machine jedoch gelernt autonom zu entscheiden, wer dargestellt ist. Die erhobenen Daten können dabei entweder den META Daten des Bildes oder einem Digital Asset Management (DAM) zugeordnet werden. Auf diese Weise wird nicht nur die Bildersuche stark verbessert, sondern auch neue Verbindungen zwischen Bildern können einfacher hergestellt werden.

Es geht um Verschlagwortung

Stellen Sie sich die folgende Situation vor: Sie arbeiten in einem großen Verlag, der ein Bilderarchiv oder Medienservice betreibt und ständig Bilder kategorisieren und einordnen muss, die von Fotografen aus der ganzen Welt kommen. Ihre Aufgabe ist es jedes Bild zu sichten und mit Schlagworten für ein Digitales Asset Management (DAM) zu versehen. Selten enthalten die Bilder weitere Informationen, was eine spätere Bildersuche unnötig erschwert. Ihre Redakteure haben wiederum keine Zeit sich durch den riesigen Datenbestand zu wühlen, um bspw. ein Bild von Angela Merkel zusammen mit Vladimir Putin beim letzten Treffen in Moskau zu finden.

Mit Hilfe von Machine Learning Methoden kann eine trainierte Maschine autonom Gesichter erkennen und die Resultate der Datei oder dem DAM System zuordnen. Der Data Scientist nutzt dazu während der Trainingsphase ausgewählte Bilder und lernt der Maschine um was es sich in diesem Bild handelt. Nach einer kurzen Weile - die Anzahl der Trainingsdaten für eine Person liegen in der Regel bei etwa 20 Beispielbildern - beginnt die Maschine eigenständig zu arbeiten und ausgehend von vorherigen Erkenntnissen und Vermutungen errechnet sie Wahrscheinlichkeiten. Fügt man nun neue Bilder dem System zu, erkennt die Maschine eigenständig die Person (wenn vorher darauf trainiert) und fügt diese Information hinzu.

Verbindungen finden

Tagging, Geo-Informationen und andere Zusammenhänge

Jedes digitale Bild besitzt so genannte EXIF Daten die sich in der Datei selbst befinden und Auskunft über das Kameramodell, die Marke oder das verwendete Objektiv geben. Moderne Kameras haben zusätzlich noch einen GPS Chip, der Breitengrad und Längengrad vermerkt. Zusammen mit den Schlagworten aus dem Machine Learning ergeben sich weitreichende Möglichkeiten. Ihr Redakteur kann nun den Namen der Person in die Suche eingeben und zusätzlich noch den Ort und die Suche liefert ohne menschliches Zutun automatisch Ergebnisse.

Die ganze Idee an einem Beispiel

Die nachfolgende Maschine wurde mit Bildern von deutschen Politikern und Persönlichkeiten trainiert. Zu Demonstrationszwecken haben wir Bilder genutzt, die auf Wikipedia öffentlich zur Verfügung stehen. Alle Bilder wurden umbenannt und sowohl META als auch EXIF Daten entfernt.

Wofür kann ich diesen Service nutzen?

Wie bereits ausgeführt ist einer der Haupt-Anwendungsfälle die autonome Verschlagwortung von Bildern mit Personen. Dabei wird die Treffergenauigkeit von Bildersuchen drastisch erhöht.

Foto von Javier Sánchez Mingorance auf http://www.javiindy.com