Categories: ForschungInnovation

Google macht für Optimierung von Google Maps genutzte Texterkennung Open Source

Google hat eine zu seinem Maschinenlernen-Projekt TensorFlow gehörende Technologie zur Texterkennung in Bildern quelloffen gemacht. Sie steht Interessierten nun bei Github zur Verfügung. TensorFlow selbst bietet Google bereits seit 2015 unter der Apache-License an.

Anlässlich der Veröffentlichung geben die Google-Mitarbeiter Julian Ibarz, Software Engineer im Brain Team und Sujoy Banerjee, Product Manager des Ground Truth Team auch Einblicke in die Nutzung der Texterkennungstechnologie durch den Konzern. Ihnen zufolge sammeln die Street-View-Fahrzeuge tagtäglich immer noch Millionen von Bildern. Insgesamt lägen für Street View nun 80 Milliarden hochaufgelöste Aufnahmen vor. Bei solchen Zahlen sei es schlichtweg unmöglich, die Aufnahmen manuell auszuwerten.

Eine der Aufgaben des Google Ground Truth Team sei es daher, Methoden zur automatischen Extraktion von Information aus den mit Geo-Daten versehenen Bildern zu entwickeln und die dann zu nutzen, um Google Maps zu verbessern. Ein wichtiger Bestandteil davon sind Straßennamen, die von Straßenschildern abgelesen werden. Dabei werden jeweils mehrere Aufnahmen herangezogen, um die Genauigkeit zu verbessern, Abweichungen in der Schreibweise zu erkennen und die unterschiedlichen Varianten zu normalisieren. Besonders schwierig scheint das in Frankreich zu sein, deshalb illustrieren die Google-Forscher die Arbeit mit der Software am Beispiel dieses Landes. Der Algorithmus erreiche dort eine Genauigkeit von 84,2 Prozent und sei damit wesentlich leistungsfähiger als frühere Systeme.

Zudem sei er nicht auf Straßennamen beschränkt, sondern lasse sich leicht auf die Extraktion anderer Informationen aus Street-View-Bildern anwenden. Ein Beispiel sei etwa die Erkennung der Namen von Geschäften anhand ihrer Firmenschilder.

Ibarz und Banerjee weisen darauf hin, dass der Schwerpunkt automatischer Texterkennung (OCR) traditionell auf eingescannten Dokumenten gelegen habe. Die Erkennung von Texten aus Aufnahmen „in freier Wildbahn“ stelle die Forscher aber vor ganz andere Aufgaben, da dort Texte teilweise verdeckt oder schlecht lesbar sind, der Aufnahmewinkel für Verzerrung sorgt oder Aufnahmen unscharf sein können.

Mit Arbeiten, diese Aufgaben automatisiert zu bewältigen, begann Google 2008. Anlass war damals die bei Google zunächst nicht sofort auf offene Ohren gestoßene Forderung, in einigen Ländern Gesichter und Kfz-Kennzeichen auf den Street-View-Aufnahmen unkenntlich zu machen. Nachdem dies in Angriff Genomen wurde, hat man aber offenbar die weiteren Möglichkeiten erkannt.

„Wir bemerkten, dass wir mit ausreichend klassifizierten Daten Maschinenlernen nicht nur einsetzen könnten, um die Privatsphäre unserer Nutzer zu schützen, sondern auch Google Maps automatisiert mit relevanten und aktuellen Informationen anreichern könnten“, erklären die Forscher. [Anmerkung der Redaktion: Eigentlich ging es hier nicht um die „Privatsphäre der Nutzer“, sondern um die Privatsphäre zufällig aufgenommener Unbeteiligter, die nicht unbedingt Google-Nutzer sein mussten].

Das von Google entwickelte System kann in dem Bild den Firmennamen “Zelina Pneus” korrekt erkennen, obwohl ihm keine Informationen über dessen Position im Bild vorliegen. Das Modell wird durch die ebenfalls im Bild erkennbaren Markennamen der von dem Unternehmen vertriebene Reifen nicht verwirrt (Bild: Google)

Eines der früheren Ergebnisse war das 2014 vorgestellte System zur Erkennung von Hausnummern. Es sei ein entscheidender Schritt gewesen, um Google Maps genauer zu machen, erklären Ibarz und Banerjee. Bislang sei damit bei über einem Drittel der erfassten Adressen weltweit die Genauigkeit verbessert worden. In einigen Ländern, darunter Brasilien, liege der Prozentsatz der nun genauer zugeordneten Adressen sogar bei 90 Prozent.

Die Technologie wurde dann anhand einer Datenbank mit über einer Millionen Straßennamen aus Frankreich auf angewandt. Im Gegensatz zur Hausnummernerkennung sei es bei der Erkennung von Straßennamen unter Umständen erforderlich, Daten aus mehreren Bildern sinnvoll zusammenzuführen. Außerdem müssen variabler Text (etwa Straße oder Str.) sowie Zusätze (etwa Angaben zu den Hausnummern) und Abkürzungen (etwa Bgm.-Fritz-Müller-Straße bei der Bürgermeister Fritz-Müller-Straße) als solche erkannt und der richtigen Straße einheitlich zugeordnet werden.

Die Tensor Processing Unit (TPU), die Google in seinen Rechenzentren verwendet, begnügt sich mit weniger Transistoren pro Rechenoperation als andere Prozessoren. Daraus resultiert eine deutlich höhere Leistung pro Watt für Maschinenlernen, was Nutzern letztlich mehr intelligente Ergebnisse in kürzerer Zeit liefert. (Bild: Google).

Das neue System erlaube es zusammen mit der Hausnummernerkennung Adressen in Google Maps, bei denen vorher entweder der zugehörige Straßennamen oder die Hausnummer nicht bekannt waren, direkt aus den Bildern zu erstellen. „Wenn nun ein Street-View-Auto auf einer neu gebauten Straße fährt, kann unser System die Zehntausende aufgenommenen Bilder analysieren, Straßennamen und Hausnummern extrahieren und ordnungsgemäß neue Adressen erstellen und geographisch korrekt zuordnen“, so die Forscher.

Dies wurde auch auf die Erkennung von Firmennamen anhand der Fassade von Ladengeschäften erweitert. Die Aufgabe hier war es, aus der Vielzahl an Informationen (etwa Herstellern dort angebotener Produkte, Hinweise auf Aktionen etc.) den Namen zu ermitteln. Das gelinge aber mittlerweile zufriedenstellend – auch deshalb, weil man bei der im Hintergrund verwendeten Computing-Power noch einmal aufgerüstet habe.

ANZEIGE

So lassen sich Risiken bei der Planung eines SAP S/4HANA-Projektes vermeiden

Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.

ZDNet.de Redaktion

Recent Posts

Recall: Microsoft stellt KI-gestützte Timeline für Windows vor

Recall hilft beim Auffinden von beliebigen Dateien und Inhalten. Die neue Funktion führt Microsoft zusammen…

5 Stunden ago

Windows 10 und 11: Microsoft behebt Problem mit VPN-Verbindungen

Es tritt auch unter Windows Server auf. Seit Installation der April-Patches treten Fehlermeldungen bei VPN-Verbindungen…

11 Stunden ago

Portfoliomanagement Alfabet öffnet sich für neue Nutzer

Das neue Release soll es allen Mitarbeitenden möglich machen, zur Ausgestaltung der IT beizutragen.

15 Stunden ago

Gefahren im Foxit PDF-Reader

Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.

4 Tagen ago

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Video-Babyphones sind ebenfalls betroffen. Cyberkriminelle nehmen vermehrt IoT-Hardware ins Visier.

4 Tagen ago

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Der Downloader hat hierzulande im April einen Anteil von 18,58 Prozent. Im Bereich Ransomware ist…

4 Tagen ago