Categories: ForschungInnovationMarketingSoftware

Forscher von Google und der Stanford-Universität melden Durchbruch bei Bilderkennung

Erkannte und beschriebene Bilder - von Menschen nach ihrer Genauigkeit gruppiert (Screenshot: Google)

Forschungsteams von Google und der Stanford-Universität haben unabhängig voneinander eine KI-Software entwickelt, die Inhalte von Bildern und Videos genauer als jemals zuvor erkennen und außerdem in Worten beschreiben kann. Sie nutzten dafür neuronale Netze, die die Arbeitsweise des menschlichen Gehirns simulieren.

Nach einem Bericht der New York Times machen es die erzielten Fortschritte möglich, Milliarden Bilder und Videos besser zu katalogisieren, die zwar online verfügbar sind, aber oft nur mit unzureichenden Bildbeschreibungen. Suchmaschinen müssen sich derzeit noch weitgehend auf Bildunterschriften und schriftliche Anmerkungen verlassen, um die Inhalte einzuordnen. „Ich betrachte die Pixeldaten in Bildern und Videos als die Dunkle Materie des Internets“, sagte dazu Fei-Fei Li, Leiterin des Stanford Artificial Intelligence Laboratory. „Wir beginnen jetzt damit, sie zu beleuchten.“

Erkannte und beschriebene Bilder – von Menschen nach ihrer Genauigkeit gruppiert (Screenshot: Google)

Die Stanford-Forscher führen in ihrem Forschungspapier aus, wie sie verschiedene neuronale Netze kombinieren, die der Bilderkennung sowie der sprachlichen Beschreibung dienen. Anhand vorhandener Bildbeschreibungen lernt eine Netzwerkarchitektur, neue Beschreibungen zu Bildbereichen zu generieren. Die Leistungsfähigkeit ihrer Methode überprüften sie an öffentlich zugänglichen Bildersammlungen wie Flickr8K und Flickr30K. Ihre Bildbeispiele sind begleitet von computergenerierten Bildunterschriften, die nicht nur einzelne Objekte, sondern das in den Bildern festgehaltene Geschehen zutreffend beschreiben.

Ganz ähnlich war die Herangehensweise der Google-Forscher. Sie arbeiteten ebenfalls mit zwei Typen neuronaler Netze, um Bild- und Sprachmodelle in einem System für Maschinenlernen zusammenzuführen. Wie ihre Kollegen von der Stanford University trainierten sie es mit einer kleinen Anzahl von Bildern, die zuvor von Menschen mit beschreibenden Sätzen versehen wurden. Nachdem die Software auf diese Weise zusammenhängende Muster in den Bildern sowie Beschreibungen erkennen konnte, war sie in der Lage, auch Objekte und Geschehnisse auf noch unbeschriebenen Bildern doppelt so genau wie bei früheren Versuchen zu beschreiben – wenn auch noch immer weit von menschlicher Wahrnehmung entfernt.

Eher skeptisch zu den erzielten Fortschritten äußerte sich gegenüber der Times John R. Smith vom Thomas J. Watson Research Center, einem Forschungszentrum von IBM. „Ich weiß nicht, ob wir hier von ‚Verständnis‘ in dem Sinne reden können, in dem wir uns das wünschen“, sagte er. „Ich denke, die Fähigkeit zur Generierung von Sprache ist hier noch sehr begrenzt.“

Die Forscherteams von Google wie auch von Stanford erwarten jedoch beeindruckendere Fortschritte, wenn ihre Programme mit größeren Mengen von Bildern trainiert werden, die mit Beschreibungen versehen sind. Eine Forschergruppe an der University of North Carolina ist bereits dabei, ein neuronales Netz mit einer Million Beispielbildern mit sprachlichen Anmerkungen zu „füttern“.

ZDNet.de Redaktion