Forscher von Google und der Stanford-Universität melden Durchbruch bei Bilderkennung

Forschungsteams von Google und der Stanford-Universität haben unabhängig voneinander eine KI-Software entwickelt, die Inhalte von Bildern und Videos genauer als jemals zuvor erkennen und außerdem in Worten beschreiben kann. Sie nutzten dafür neuronale Netze, die die Arbeitsweise des menschlichen Gehirns simulieren.

Nach einem Bericht der New York Times machen es die erzielten Fortschritte möglich, Milliarden Bilder und Videos besser zu katalogisieren, die zwar online verfügbar sind, aber oft nur mit unzureichenden Bildbeschreibungen. Suchmaschinen müssen sich derzeit noch weitgehend auf Bildunterschriften und schriftliche Anmerkungen verlassen, um die Inhalte einzuordnen. „Ich betrachte die Pixeldaten in Bildern und Videos als die Dunkle Materie des Internets“, sagte dazu Fei-Fei Li, Leiterin des Stanford Artificial Intelligence Laboratory. „Wir beginnen jetzt damit, sie zu beleuchten.“

Erkannte und beschriebene Bilder – von Menschen nach ihrer Genauigkeit gruppiert (Screenshot: Google)

Die Stanford-Forscher führen in ihrem Forschungspapier aus, wie sie verschiedene neuronale Netze kombinieren, die der Bilderkennung sowie der sprachlichen Beschreibung dienen. Anhand vorhandener Bildbeschreibungen lernt eine Netzwerkarchitektur, neue Beschreibungen zu Bildbereichen zu generieren. Die Leistungsfähigkeit ihrer Methode überprüften sie an öffentlich zugänglichen Bildersammlungen wie Flickr8K und Flickr30K. Ihre Bildbeispiele sind begleitet von computergenerierten Bildunterschriften, die nicht nur einzelne Objekte, sondern das in den Bildern festgehaltene Geschehen zutreffend beschreiben.

Ganz ähnlich war die Herangehensweise der Google-Forscher. Sie arbeiteten ebenfalls mit zwei Typen neuronaler Netze, um Bild- und Sprachmodelle in einem System für Maschinenlernen zusammenzuführen. Wie ihre Kollegen von der Stanford University trainierten sie es mit einer kleinen Anzahl von Bildern, die zuvor von Menschen mit beschreibenden Sätzen versehen wurden. Nachdem die Software auf diese Weise zusammenhängende Muster in den Bildern sowie Beschreibungen erkennen konnte, war sie in der Lage, auch Objekte und Geschehnisse auf noch unbeschriebenen Bildern doppelt so genau wie bei früheren Versuchen zu beschreiben – wenn auch noch immer weit von menschlicher Wahrnehmung entfernt.

Eher skeptisch zu den erzielten Fortschritten äußerte sich gegenüber der Times John R. Smith vom Thomas J. Watson Research Center, einem Forschungszentrum von IBM. „Ich weiß nicht, ob wir hier von ‚Verständnis‘ in dem Sinne reden können, in dem wir uns das wünschen“, sagte er. „Ich denke, die Fähigkeit zur Generierung von Sprache ist hier noch sehr begrenzt.“

Die Forscherteams von Google wie auch von Stanford erwarten jedoch beeindruckendere Fortschritte, wenn ihre Programme mit größeren Mengen von Bildern trainiert werden, die mit Beschreibungen versehen sind. Eine Forschergruppe an der University of North Carolina ist bereits dabei, ein neuronales Netz mit einer Million Beispielbildern mit sprachlichen Anmerkungen zu „füttern“.

ZDNet.de Redaktion

Recent Posts

Gefahren im Foxit PDF-Reader

Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.

2 Tagen ago

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Video-Babyphones sind ebenfalls betroffen. Cyberkriminelle nehmen vermehrt IoT-Hardware ins Visier.

2 Tagen ago

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Der Downloader hat hierzulande im April einen Anteil von 18,58 Prozent. Im Bereich Ransomware ist…

2 Tagen ago

Podcast: „Die Zero Trust-Architektur ist gekommen, um zu bleiben“

Unternehmen greifen von überall aus auf die Cloud und Applikationen zu. Dementsprechend reicht das Burg-Prinzip…

2 Tagen ago

Google schließt weitere Zero-Day-Lücke in Chrome

Hacker nutzen eine jetzt gepatchte Schwachstelle im Google-Browser bereits aktiv aus. Die neue Chrome-Version stopft…

2 Tagen ago

Hacker greifen Zero-Day-Lücke in Windows mit Banking-Trojaner QakBot an

Microsoft bietet seit Anfang der Woche einen Patch für die Lücke. Kaspersky-Forscher gehen davon aus,…

2 Tagen ago