Forscher von Google und der Stanford-Universität melden Durchbruch bei Bilderkennung

Forschungsteams von Google und der Stanford-Universität haben unabhängig voneinander eine KI-Software entwickelt, die Inhalte von Bildern und Videos genauer als jemals zuvor erkennen und außerdem in Worten beschreiben kann. Sie nutzten dafür neuronale Netze, die die Arbeitsweise des menschlichen Gehirns simulieren.

Nach einem Bericht der New York Times machen es die erzielten Fortschritte möglich, Milliarden Bilder und Videos besser zu katalogisieren, die zwar online verfügbar sind, aber oft nur mit unzureichenden Bildbeschreibungen. Suchmaschinen müssen sich derzeit noch weitgehend auf Bildunterschriften und schriftliche Anmerkungen verlassen, um die Inhalte einzuordnen. „Ich betrachte die Pixeldaten in Bildern und Videos als die Dunkle Materie des Internets“, sagte dazu Fei-Fei Li, Leiterin des Stanford Artificial Intelligence Laboratory. „Wir beginnen jetzt damit, sie zu beleuchten.“

Erkannte und beschriebene Bilder – von Menschen nach ihrer Genauigkeit gruppiert (Screenshot: Google)

Die Stanford-Forscher führen in ihrem Forschungspapier aus, wie sie verschiedene neuronale Netze kombinieren, die der Bilderkennung sowie der sprachlichen Beschreibung dienen. Anhand vorhandener Bildbeschreibungen lernt eine Netzwerkarchitektur, neue Beschreibungen zu Bildbereichen zu generieren. Die Leistungsfähigkeit ihrer Methode überprüften sie an öffentlich zugänglichen Bildersammlungen wie Flickr8K und Flickr30K. Ihre Bildbeispiele sind begleitet von computergenerierten Bildunterschriften, die nicht nur einzelne Objekte, sondern das in den Bildern festgehaltene Geschehen zutreffend beschreiben.

Ganz ähnlich war die Herangehensweise der Google-Forscher. Sie arbeiteten ebenfalls mit zwei Typen neuronaler Netze, um Bild- und Sprachmodelle in einem System für Maschinenlernen zusammenzuführen. Wie ihre Kollegen von der Stanford University trainierten sie es mit einer kleinen Anzahl von Bildern, die zuvor von Menschen mit beschreibenden Sätzen versehen wurden. Nachdem die Software auf diese Weise zusammenhängende Muster in den Bildern sowie Beschreibungen erkennen konnte, war sie in der Lage, auch Objekte und Geschehnisse auf noch unbeschriebenen Bildern doppelt so genau wie bei früheren Versuchen zu beschreiben – wenn auch noch immer weit von menschlicher Wahrnehmung entfernt.

Eher skeptisch zu den erzielten Fortschritten äußerte sich gegenüber der Times John R. Smith vom Thomas J. Watson Research Center, einem Forschungszentrum von IBM. „Ich weiß nicht, ob wir hier von ‚Verständnis‘ in dem Sinne reden können, in dem wir uns das wünschen“, sagte er. „Ich denke, die Fähigkeit zur Generierung von Sprache ist hier noch sehr begrenzt.“

Die Forscherteams von Google wie auch von Stanford erwarten jedoch beeindruckendere Fortschritte, wenn ihre Programme mit größeren Mengen von Bildern trainiert werden, die mit Beschreibungen versehen sind. Eine Forschergruppe an der University of North Carolina ist bereits dabei, ein neuronales Netz mit einer Million Beispielbildern mit sprachlichen Anmerkungen zu „füttern“.

ZDNet.de Redaktion

Recent Posts

Salesforce: Mit Einstein GPT zurück auf die Überholspur?

Salesforce forciert den Ausbau seiner Industry Clouds. Mit ihrem Prozesswissen könnten deutsche IT-Dienstleister davon profitieren.

7 Stunden ago

Neue Backdoor: Bedrohung durch Malvertising-Kampagne mit MadMxShell

Bisher unbekannter Bedrohungsakteur versucht über gefälschte IP Scanner Software-Domänen Zugriff auf IT-Umgebungen zu erlangen.

2 Tagen ago

BSI-Studie: Wie KI die Bedrohungslandschaft verändert

Der Bericht zeigt bereits nutzbare Angriffsanwendungen und bewertet die Risiken, die davon ausgehen.

2 Tagen ago

KI-Wandel: Welche Berufe sich am stärksten verändern

Deutsche sehen Finanzwesen und IT im Zentrum der KI-Transformation. Justiz und Militär hingegen werden deutlich…

2 Tagen ago

Wie ein Unternehmen, das Sie noch nicht kennen, eine Revolution in der Cloud-Speicherung anführt

Cubbit ist das weltweit erste Unternehmen, das Cloud-Objektspeicher anbietet. Es wurde 2016 gegründet und bedient…

3 Tagen ago

Dirty Stream: Microsoft entdeckt neuartige Angriffe auf Android-Apps

Unbefugte können Schadcode einschleusen und ausführen. Auslöser ist eine fehlerhafte Implementierung einer Android-Funktion.

3 Tagen ago