Google nimmt gescannte Dokumente in seinen Index auf

Google hat damit begonnen, digitalisierte Dokumente in seinen Suchindex aufzunehmen. Mittels Optical Character Recognition (OCR) erfasst der Suchanbieter ab sofort Texte, die als Bilder gescannt und im PDF-Format im Internet veröffentlicht wurden. „Dank OCR können wir ein Bild, das tausend Worte enthält, in tausend durchsuchbare Wörter umwandeln“, erklärt Google-Produktmanager Evin Levey in einem Blogeintrag.

Als Beispiele nennt Levey offizielle Regierungsberichte oder wissenschaftliche Abhandlungen. „Solche Dokumente haben eines gemeinsam: Jemand ist davon ausgegangen, dass die enthaltenen Informationen wichtig genug sind, um sie im Internet zu veröffentlichen.“

Bei der Erkennung der Texte habe Google jedoch mit einigen Schwierigkeiten zu kämpfen, so Levey. „Das gescannte Bild eines Textes entspricht nicht immer dem Original.“ Einige Dokumente enthielten Rückstände von Druckertinte oder Falten im Papier. „Man stelle sich einen Kreis vor. Handelt es sich dabei um einen Fleck von einer Kaffeetasse, den Buchstaben ‚O‘ oder die Ziffer Null? Menschen können diese Frage sehr schnell beantworten, aber für einen Computer ist das ein aufwendiger und mit Fehlern behafteter Prozess.“

ZDNet.de Redaktion

Recent Posts

Neue Backdoor: Bedrohung durch Malvertising-Kampagne mit MadMxShell

Bisher unbekannter Bedrohungsakteur versucht über gefälschte IP Scanner Software-Domänen Zugriff auf IT-Umgebungen zu erlangen.

3 Stunden ago

BSI-Studie: Wie KI die Bedrohungslandschaft verändert

Der Bericht zeigt bereits nutzbare Angriffsanwendungen und bewertet die Risiken, die davon ausgehen.

21 Stunden ago

KI-Wandel: Welche Berufe sich am stärksten verändern

Deutsche sehen Finanzwesen und IT im Zentrum der KI-Transformation. Justiz und Militär hingegen werden deutlich…

22 Stunden ago

Wie ein Unternehmen, das Sie noch nicht kennen, eine Revolution in der Cloud-Speicherung anführt

Cubbit ist das weltweit erste Unternehmen, das Cloud-Objektspeicher anbietet. Es wurde 2016 gegründet und bedient…

1 Tag ago

Dirty Stream: Microsoft entdeckt neuartige Angriffe auf Android-Apps

Unbefugte können Schadcode einschleusen und ausführen. Auslöser ist eine fehlerhafte Implementierung einer Android-Funktion.

1 Tag ago

Apple meldet Umsatz- und Gewinnrückgang im zweiten Fiskalquartal

iPhones und iPads belasten das Ergebnis. Außerdem schwächelt Apple im gesamten asiatischen Raum inklusive China…

1 Tag ago