Categories: ForschungInnovation

Google macht für Optimierung von Google Maps genutzte Texterkennung Open Source

Google hat eine zu seinem Maschinenlernen-Projekt TensorFlow gehörende Technologie zur Texterkennung in Bildern quelloffen gemacht. Sie steht Interessierten nun bei Github zur Verfügung. TensorFlow selbst bietet Google bereits seit 2015 unter der Apache-License an.

Anlässlich der Veröffentlichung geben die Google-Mitarbeiter Julian Ibarz, Software Engineer im Brain Team und Sujoy Banerjee, Product Manager des Ground Truth Team auch Einblicke in die Nutzung der Texterkennungstechnologie durch den Konzern. Ihnen zufolge sammeln die Street-View-Fahrzeuge tagtäglich immer noch Millionen von Bildern. Insgesamt lägen für Street View nun 80 Milliarden hochaufgelöste Aufnahmen vor. Bei solchen Zahlen sei es schlichtweg unmöglich, die Aufnahmen manuell auszuwerten.

Eine der Aufgaben des Google Ground Truth Team sei es daher, Methoden zur automatischen Extraktion von Information aus den mit Geo-Daten versehenen Bildern zu entwickeln und die dann zu nutzen, um Google Maps zu verbessern. Ein wichtiger Bestandteil davon sind Straßennamen, die von Straßenschildern abgelesen werden. Dabei werden jeweils mehrere Aufnahmen herangezogen, um die Genauigkeit zu verbessern, Abweichungen in der Schreibweise zu erkennen und die unterschiedlichen Varianten zu normalisieren. Besonders schwierig scheint das in Frankreich zu sein, deshalb illustrieren die Google-Forscher die Arbeit mit der Software am Beispiel dieses Landes. Der Algorithmus erreiche dort eine Genauigkeit von 84,2 Prozent und sei damit wesentlich leistungsfähiger als frühere Systeme.

Zudem sei er nicht auf Straßennamen beschränkt, sondern lasse sich leicht auf die Extraktion anderer Informationen aus Street-View-Bildern anwenden. Ein Beispiel sei etwa die Erkennung der Namen von Geschäften anhand ihrer Firmenschilder.

Ibarz und Banerjee weisen darauf hin, dass der Schwerpunkt automatischer Texterkennung (OCR) traditionell auf eingescannten Dokumenten gelegen habe. Die Erkennung von Texten aus Aufnahmen „in freier Wildbahn“ stelle die Forscher aber vor ganz andere Aufgaben, da dort Texte teilweise verdeckt oder schlecht lesbar sind, der Aufnahmewinkel für Verzerrung sorgt oder Aufnahmen unscharf sein können.

Mit Arbeiten, diese Aufgaben automatisiert zu bewältigen, begann Google 2008. Anlass war damals die bei Google zunächst nicht sofort auf offene Ohren gestoßene Forderung, in einigen Ländern Gesichter und Kfz-Kennzeichen auf den Street-View-Aufnahmen unkenntlich zu machen. Nachdem dies in Angriff Genomen wurde, hat man aber offenbar die weiteren Möglichkeiten erkannt.

„Wir bemerkten, dass wir mit ausreichend klassifizierten Daten Maschinenlernen nicht nur einsetzen könnten, um die Privatsphäre unserer Nutzer zu schützen, sondern auch Google Maps automatisiert mit relevanten und aktuellen Informationen anreichern könnten“, erklären die Forscher. [Anmerkung der Redaktion: Eigentlich ging es hier nicht um die „Privatsphäre der Nutzer“, sondern um die Privatsphäre zufällig aufgenommener Unbeteiligter, die nicht unbedingt Google-Nutzer sein mussten].

Das von Google entwickelte System kann in dem Bild den Firmennamen “Zelina Pneus” korrekt erkennen, obwohl ihm keine Informationen über dessen Position im Bild vorliegen. Das Modell wird durch die ebenfalls im Bild erkennbaren Markennamen der von dem Unternehmen vertriebene Reifen nicht verwirrt (Bild: Google)

Eines der früheren Ergebnisse war das 2014 vorgestellte System zur Erkennung von Hausnummern. Es sei ein entscheidender Schritt gewesen, um Google Maps genauer zu machen, erklären Ibarz und Banerjee. Bislang sei damit bei über einem Drittel der erfassten Adressen weltweit die Genauigkeit verbessert worden. In einigen Ländern, darunter Brasilien, liege der Prozentsatz der nun genauer zugeordneten Adressen sogar bei 90 Prozent.

Die Technologie wurde dann anhand einer Datenbank mit über einer Millionen Straßennamen aus Frankreich auf angewandt. Im Gegensatz zur Hausnummernerkennung sei es bei der Erkennung von Straßennamen unter Umständen erforderlich, Daten aus mehreren Bildern sinnvoll zusammenzuführen. Außerdem müssen variabler Text (etwa Straße oder Str.) sowie Zusätze (etwa Angaben zu den Hausnummern) und Abkürzungen (etwa Bgm.-Fritz-Müller-Straße bei der Bürgermeister Fritz-Müller-Straße) als solche erkannt und der richtigen Straße einheitlich zugeordnet werden.

Die Tensor Processing Unit (TPU), die Google in seinen Rechenzentren verwendet, begnügt sich mit weniger Transistoren pro Rechenoperation als andere Prozessoren. Daraus resultiert eine deutlich höhere Leistung pro Watt für Maschinenlernen, was Nutzern letztlich mehr intelligente Ergebnisse in kürzerer Zeit liefert. (Bild: Google).

Das neue System erlaube es zusammen mit der Hausnummernerkennung Adressen in Google Maps, bei denen vorher entweder der zugehörige Straßennamen oder die Hausnummer nicht bekannt waren, direkt aus den Bildern zu erstellen. „Wenn nun ein Street-View-Auto auf einer neu gebauten Straße fährt, kann unser System die Zehntausende aufgenommenen Bilder analysieren, Straßennamen und Hausnummern extrahieren und ordnungsgemäß neue Adressen erstellen und geographisch korrekt zuordnen“, so die Forscher.

Dies wurde auch auf die Erkennung von Firmennamen anhand der Fassade von Ladengeschäften erweitert. Die Aufgabe hier war es, aus der Vielzahl an Informationen (etwa Herstellern dort angebotener Produkte, Hinweise auf Aktionen etc.) den Namen zu ermitteln. Das gelinge aber mittlerweile zufriedenstellend – auch deshalb, weil man bei der im Hintergrund verwendeten Computing-Power noch einmal aufgerüstet habe.

So lassen sich Risiken bei der Planung eines SAP S/4HANA-Projektes vermeiden

Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.

>>> Jetzt herunterladen! >>>

ZDNet.de Redaktion