Categories: ForschungInnovationMarketingSoftware

Forscher von Google und der Stanford-Universität melden Durchbruch bei Bilderkennung

Erkannte und beschriebene Bilder - von Menschen nach ihrer Genauigkeit gruppiert (Screenshot: Google)

Forschungsteams von Google und der Stanford-Universität haben unabhängig voneinander eine KI-Software entwickelt, die Inhalte von Bildern und Videos genauer als jemals zuvor erkennen und außerdem in Worten beschreiben kann. Sie nutzten dafür neuronale Netze, die die Arbeitsweise des menschlichen Gehirns simulieren.

Nach einem Bericht der New York Times machen es die erzielten Fortschritte möglich, Milliarden Bilder und Videos besser zu katalogisieren, die zwar online verfügbar sind, aber oft nur mit unzureichenden Bildbeschreibungen. Suchmaschinen müssen sich derzeit noch weitgehend auf Bildunterschriften und schriftliche Anmerkungen verlassen, um die Inhalte einzuordnen. „Ich betrachte die Pixeldaten in Bildern und Videos als die Dunkle Materie des Internets“, sagte dazu Fei-Fei Li, Leiterin des Stanford Artificial Intelligence Laboratory. „Wir beginnen jetzt damit, sie zu beleuchten.“

Erkannte und beschriebene Bilder – von Menschen nach ihrer Genauigkeit gruppiert (Screenshot: Google)

Die Stanford-Forscher führen in ihrem Forschungspapier aus, wie sie verschiedene neuronale Netze kombinieren, die der Bilderkennung sowie der sprachlichen Beschreibung dienen. Anhand vorhandener Bildbeschreibungen lernt eine Netzwerkarchitektur, neue Beschreibungen zu Bildbereichen zu generieren. Die Leistungsfähigkeit ihrer Methode überprüften sie an öffentlich zugänglichen Bildersammlungen wie Flickr8K und Flickr30K. Ihre Bildbeispiele sind begleitet von computergenerierten Bildunterschriften, die nicht nur einzelne Objekte, sondern das in den Bildern festgehaltene Geschehen zutreffend beschreiben.

Ganz ähnlich war die Herangehensweise der Google-Forscher. Sie arbeiteten ebenfalls mit zwei Typen neuronaler Netze, um Bild- und Sprachmodelle in einem System für Maschinenlernen zusammenzuführen. Wie ihre Kollegen von der Stanford University trainierten sie es mit einer kleinen Anzahl von Bildern, die zuvor von Menschen mit beschreibenden Sätzen versehen wurden. Nachdem die Software auf diese Weise zusammenhängende Muster in den Bildern sowie Beschreibungen erkennen konnte, war sie in der Lage, auch Objekte und Geschehnisse auf noch unbeschriebenen Bildern doppelt so genau wie bei früheren Versuchen zu beschreiben – wenn auch noch immer weit von menschlicher Wahrnehmung entfernt.

Eher skeptisch zu den erzielten Fortschritten äußerte sich gegenüber der Times John R. Smith vom Thomas J. Watson Research Center, einem Forschungszentrum von IBM. „Ich weiß nicht, ob wir hier von ‚Verständnis‘ in dem Sinne reden können, in dem wir uns das wünschen“, sagte er. „Ich denke, die Fähigkeit zur Generierung von Sprache ist hier noch sehr begrenzt.“

Die Forscherteams von Google wie auch von Stanford erwarten jedoch beeindruckendere Fortschritte, wenn ihre Programme mit größeren Mengen von Bildern trainiert werden, die mit Beschreibungen versehen sind. Eine Forschergruppe an der University of North Carolina ist bereits dabei, ein neuronales Netz mit einer Million Beispielbildern mit sprachlichen Anmerkungen zu „füttern“.

ZDNet.de Redaktion

NextWhatsApp führt Ende-zu-Ende-Verschlüsselung ein »

Previous « Lenovo plant Innovationszentrum für Supercomputing in Stuttgart

Published by

ZDNet.de Redaktion

Tags: ForschungSoftwareSuchmaschine

10 Jahren ago

Gefahren im Foxit PDF-Reader

Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.

2 Tagen ago

Hardware

Forscher von Google und der Stanford-Universität melden Durchbruch bei Bilderkennung

Recent Posts

Gefahren im Foxit PDF-Reader

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Podcast: „Die Zero Trust-Architektur ist gekommen, um zu bleiben“

Google schließt weitere Zero-Day-Lücke in Chrome

Hacker greifen Zero-Day-Lücke in Windows mit Banking-Trojaner QakBot an

Forscher von Google und der Stanford-Universität melden Durchbruch bei Bilderkennung

Related Post

Recent Posts

Gefahren im Foxit PDF-Reader

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Podcast: „Die Zero Trust-Architektur ist gekommen, um zu bleiben“

Google schließt weitere Zero-Day-Lücke in Chrome

Hacker greifen Zero-Day-Lücke in Windows mit Banking-Trojaner QakBot an