British Library stellt Zeitungsartikel aus zwei Jahrhunderten online

Die britische Nationalbibliothek hat Artikel aus rund 200 Zeitungen im Netz veröffentlicht. Sie stammen aus Großbritannien und Irland und lassen sich auf das 18. und 19. Jahrhundert datieren. Digitalisiert hat die mehr als drei Millionen Zeitungsseiten ein Unternehmen namens Brightsolid. Die Artikel wurden zudem verschlagwortet sowie mit Informationen zu Titel, Name, Ort und Datum versehen.

Im vergangenen Jahr haben Mitarbeiter von Brightsolid täglich bis zu 8000 Zeitungsseiten gescannt. In den nächsten zehn Jahren sollen noch rund 40 Millionen Zeitungsseiten hinzukommen. Dazu nutzen sie fünf A0-Scanner, die Bilder mit einer Kantenlänge von bis zu 118,9 mal 84,1 Zentimeter in einer Farbtiefe von 24 Bit und einer Auflösung von 400 dpi erstellen. Nach Angaben der British Library sind manche der Bilder 400 MByte groß.

Die Scans werden dann in das Grafikformat JPEG 2000 konvertiert. Eine Software zur optischen Zeichenerkennung (OCR) identifiziert die einzelnen Buchstaben und erstellt elektronische Abbilder der Texte, die sich durchsuchen lassen.


Illustration von Queen Victoria aus einer der eingescannten Zeitungen (Bild: British Library).

Im Online-Archiv der Britisch Library nachzulesen sind etwa Originalberichte über die Schlacht bei Waterloo im Jahr 1815, die Krönung von Queen Victoria 1838 oder Jack the Ripper. Ein paar Artikel können kostenlos betrachtet werden. Dafür ist lediglich eine Registrierung nötig.

Ebenfalls kostenfrei ist das Durchsuchen des Archivs. Um die Seiten zu lesen, fällt jedoch eine Gebühr an. Abgerechnet wird in Credits. Eine einzelne Seite in Schwarz-Weiß, die vor mehr als 107 Jahren veröffentlicht wurde, ist beispielsweise 5 Credits wert. Ein Farbscan kostet 10 Credits. Für eine Seite, die innerhalb der vergangenen 107 Jahre abgedruckt wurde, werden 15 Credits fällig. Ein Abonnement für 80 Pfund im Jahr gibt Nutzern uneingeschränkten Zugriff. Alternativ sind Pakete für 30 Tage (30 Pfund, 3000 Credits) oder zwei Tage (7 Pfund, 500 Credits) verfügbar.

Die britische Nationalbibliothek arbeitet auch mit Google zusammen, das 250.000 urheberrechtsfreie Bücher für sein Projekt Google Books scannen will. Insgesamt sollen 40 Millionen Seiten im Volltext erfasst werden. Die Bücher stammen aus den Jahren 1700 bis 1870 – von der französischen Revolution bis zum Ende der Sklaverei. Man will sich vor allem auf Werke in mehreren europäischen Sprachen konzentrieren, die bisher nicht in digitaler Form verfügbar sind.

ZDNet.de Redaktion

Recent Posts

Google: Passkeys schützen mehr als 400 Millionen Google-Konten

Die Passwort-Alternative Passkeys überholt Einmalpasswörter bei der Zwei-Faktor-Authentifizierung. Auch Microsoft setzt sich aktiv für die…

5 Stunden ago

Infostealer: 53 Prozent der Angriffe treffen Unternehmensrechner

Der Anteil steigt seit 2020 um 34 Prozentpunkte. Allein 2023 erfasst Kaspersky rund 10 Millionen…

6 Stunden ago

Salesforce: Mit Einstein GPT zurück auf die Überholspur?

Salesforce forciert den Ausbau seiner Industry Clouds. Mit ihrem Prozesswissen könnten deutsche IT-Dienstleister davon profitieren.

1 Tag ago

Neue Backdoor: Bedrohung durch Malvertising-Kampagne mit MadMxShell

Bisher unbekannter Bedrohungsakteur versucht über gefälschte IP Scanner Software-Domänen Zugriff auf IT-Umgebungen zu erlangen.

2 Tagen ago

BSI-Studie: Wie KI die Bedrohungslandschaft verändert

Der Bericht zeigt bereits nutzbare Angriffsanwendungen und bewertet die Risiken, die davon ausgehen.

3 Tagen ago

KI-Wandel: Welche Berufe sich am stärksten verändern

Deutsche sehen Finanzwesen und IT im Zentrum der KI-Transformation. Justiz und Militär hingegen werden deutlich…

3 Tagen ago