Forscher von Google und der Stanford-Universität melden Durchbruch bei Bilderkennung

Forschungsteams von Google und der Stanford-Universität haben unabhängig voneinander eine KI-Software entwickelt, die Inhalte von Bildern und Videos genauer als jemals zuvor erkennen und außerdem in Worten beschreiben kann. Sie nutzten dafür neuronale Netze, die die Arbeitsweise des menschlichen Gehirns simulieren.

Nach einem Bericht der New York Times machen es die erzielten Fortschritte möglich, Milliarden Bilder und Videos besser zu katalogisieren, die zwar online verfügbar sind, aber oft nur mit unzureichenden Bildbeschreibungen. Suchmaschinen müssen sich derzeit noch weitgehend auf Bildunterschriften und schriftliche Anmerkungen verlassen, um die Inhalte einzuordnen. „Ich betrachte die Pixeldaten in Bildern und Videos als die Dunkle Materie des Internets“, sagte dazu Fei-Fei Li, Leiterin des Stanford Artificial Intelligence Laboratory. „Wir beginnen jetzt damit, sie zu beleuchten.“

Erkannte und beschriebene Bilder – von Menschen nach ihrer Genauigkeit gruppiert (Screenshot: Google)

Die Stanford-Forscher führen in ihrem Forschungspapier aus, wie sie verschiedene neuronale Netze kombinieren, die der Bilderkennung sowie der sprachlichen Beschreibung dienen. Anhand vorhandener Bildbeschreibungen lernt eine Netzwerkarchitektur, neue Beschreibungen zu Bildbereichen zu generieren. Die Leistungsfähigkeit ihrer Methode überprüften sie an öffentlich zugänglichen Bildersammlungen wie Flickr8K und Flickr30K. Ihre Bildbeispiele sind begleitet von computergenerierten Bildunterschriften, die nicht nur einzelne Objekte, sondern das in den Bildern festgehaltene Geschehen zutreffend beschreiben.

Ganz ähnlich war die Herangehensweise der Google-Forscher. Sie arbeiteten ebenfalls mit zwei Typen neuronaler Netze, um Bild- und Sprachmodelle in einem System für Maschinenlernen zusammenzuführen. Wie ihre Kollegen von der Stanford University trainierten sie es mit einer kleinen Anzahl von Bildern, die zuvor von Menschen mit beschreibenden Sätzen versehen wurden. Nachdem die Software auf diese Weise zusammenhängende Muster in den Bildern sowie Beschreibungen erkennen konnte, war sie in der Lage, auch Objekte und Geschehnisse auf noch unbeschriebenen Bildern doppelt so genau wie bei früheren Versuchen zu beschreiben – wenn auch noch immer weit von menschlicher Wahrnehmung entfernt.

Eher skeptisch zu den erzielten Fortschritten äußerte sich gegenüber der Times John R. Smith vom Thomas J. Watson Research Center, einem Forschungszentrum von IBM. „Ich weiß nicht, ob wir hier von ‚Verständnis‘ in dem Sinne reden können, in dem wir uns das wünschen“, sagte er. „Ich denke, die Fähigkeit zur Generierung von Sprache ist hier noch sehr begrenzt.“

Die Forscherteams von Google wie auch von Stanford erwarten jedoch beeindruckendere Fortschritte, wenn ihre Programme mit größeren Mengen von Bildern trainiert werden, die mit Beschreibungen versehen sind. Eine Forschergruppe an der University of North Carolina ist bereits dabei, ein neuronales Netz mit einer Million Beispielbildern mit sprachlichen Anmerkungen zu „füttern“.

ZDNet.de Redaktion

Recent Posts

DMA: EU stuft auch Apples iPadOS als Gatekeeper ein

Eine neue Analyse der EU-Kommission sieht vor allem eine hohe Verbreitung von iPadOS bei Business-Nutzern.…

10 Minuten ago

Chips bescheren Samsung deutlichen Gewinnzuwachs

Das operative Ergebnis wächst um fast 6 Billionen Won auf 6,64 Billionen Won. Die Gewinne…

8 Stunden ago

Chrome: Google verschiebt das Aus für Drittanbietercookies

Ab Werk blockiert Chrome Cookies von Dritten nun frühestens ab Anfang 2025. Unter anderem gibt…

1 Tag ago

BAUMLINK: Wir sind Partner und Aussteller bei der Frankfurt Tech Show 2024

Die Vorfreude steigt, denn BAUMLINK wird als Partner und Aussteller bei der Tech Show 2024…

1 Tag ago

Business GPT: Generative KI für den Unternehmenseinsatz

Nutzung einer unternehmenseigenen GPT-Umgebung für sicheren und datenschutzkonformen Zugriff.

1 Tag ago

Alphabet übertrifft die Erwartungen im ersten Quartal

Der Umsatz steigt um 15 Prozent, der Nettogewinn um 57 Prozent. Im nachbörslichen Handel kassiert…

4 Tagen ago