IBM unterstützt die EU bei der Digitalisierung historischer Dokumente

Die Europäische Union und IBM wollen ihre Zusammenarbeit beim Scannen seltener Bücher und historischer Dokumente intensivieren. Ihr gemeinsames Projekt soll auf mehr als zwei Dutzend Bibliotheken, Forschungsinstitute, Universitäten und Unternehmen in ganz Europa ausgeweitet werden, darunter die Deutsche Nationalbibliothek, die Bayerische Staatsbibliothek und die Staats- und Universitätsbibliothek Göttingen.

Das „Impact“ (Improving Access to Text) genannte Projekt verfügt über ein Budget von 16,5 Millionen Euro, wovon die EU 12,1 Millionen Euro übernimmt. Die durchschnittlichen Kosten für die Digitalisierung eines Buchs werden auf 400 bis 1000 Euro geschätzt.

Eine Kombination aus Texterkennung (OCR) und Crowdsourcing soll den Prozess der Digitalisierung beschleunigen und sicherstellen, dass die Ergebnisse so präzise wie möglich sind. Laut IBM steigert die internetfähige OCR-Software des Unternehmens die Qualität des Scanvorgangs um 25 bis 50 Prozent. Zudem sei das System in der Lage, aus Fehlern zu lernen und bestimmte Schriftarten besser zu erkennen.

Eine der Aufgaben von Impact ist es auch, die Dokumente online zur Verfügung zu stellen und eine Suchmöglichkeit anzubieten. So können etwa Forscher über das Internet Dokumente einsehen, zu deren Originalen sie keinen Zugang haben. Eine IBM-Sprecherin sagte gegenüber ZDNet, das Projekt umfasse Zehntausende Dokumente.

„Impact ist bemerkenswert, weil es den Menschen nicht nur vielleicht nie zuvor gesehene, historisch bedeutende Texte näherbringt, sondern weil sie auch an deren Erhaltung beteiligt werden“, behauptet Tal Drory, Manager der Document Processing Group bei IBM Research in Haifa, Israel. „Impact ist das erste Digitalisierungssystem, das die Möglichkeiten des Crowd-Computing mit einer adaptiven OCR-Korrektur-Lösung kombiniert.“ Das System liefere exzellente Erkennungsraten bei unterschiedlichsten Dokumenten, vom 15. Jahrhundert bis hinein ins 19. Jahrhundert.

Bibliotheken und Archive scannen schon seit Jahrzehnten ihre Dokumente und konvertieren sie per Optical Character Recognition (OCR) in lesbare Texte. Eine schlechte Qualität der Vorlagen und in historischen Dokumenten verwendete alte Schriften haben sich als Herausforderung für traditionelle Scan- und OCR-Software erwiesen, sodass die Digitalisierung langsam vorangeht und die Resultate ungenau sind.

ZDNet.de Redaktion

Recent Posts

Google: Passkeys schützen mehr als 400 Millionen Google-Konten

Die Passwort-Alternative Passkeys überholt Einmalpasswörter bei der Zwei-Faktor-Authentifizierung. Auch Microsoft setzt sich aktiv für die…

9 Stunden ago

Infostealer: 53 Prozent der Angriffe treffen Unternehmensrechner

Der Anteil steigt seit 2020 um 34 Prozentpunkte. Allein 2023 erfasst Kaspersky rund 10 Millionen…

11 Stunden ago

Salesforce: Mit Einstein GPT zurück auf die Überholspur?

Salesforce forciert den Ausbau seiner Industry Clouds. Mit ihrem Prozesswissen könnten deutsche IT-Dienstleister davon profitieren.

1 Tag ago

Neue Backdoor: Bedrohung durch Malvertising-Kampagne mit MadMxShell

Bisher unbekannter Bedrohungsakteur versucht über gefälschte IP Scanner Software-Domänen Zugriff auf IT-Umgebungen zu erlangen.

3 Tagen ago

BSI-Studie: Wie KI die Bedrohungslandschaft verändert

Der Bericht zeigt bereits nutzbare Angriffsanwendungen und bewertet die Risiken, die davon ausgehen.

3 Tagen ago

KI-Wandel: Welche Berufe sich am stärksten verändern

Deutsche sehen Finanzwesen und IT im Zentrum der KI-Transformation. Justiz und Militär hingegen werden deutlich…

3 Tagen ago