Internet Archive stellt 14 Millionen historische Illustrationen bei Flickr ein

Ein neues Tool sucht nach von der OCR-Software des Internet Archive ausgelassenen Illustrationen. Diese taggt es aufgrund des umgebenden Texts und stellt sie auf Flickr ein. Dadurch ist die Sammlung voll durchsuchbar werden.

Das Projekt The Internet Archive hat bisher mehr als 2,6 Millionen Illustrationen und Bilder aus urheberrechtsfreien Büchern auf Flickr hochgeladen und bereitet weitere vor. Der umgebende Text wurde automatisch erfasst und fürs Tagging genutzt, sodass sich das Archiv auch durchsuchen lässt.

Bilder des Telefons im Wandel der Zeiten (Screenshot: ZDNet bei Flickr)Bilder des Telefons im Wandel der Zeiten (Screenshot: ZDNet bei Flickr)

Die Kooperation des Internet Archive und des Bilderdienst wird durch Kalev Leetaru von der Georgetown University realisiert. Die ausgewählten 2 Millionen Bücher umfassen mehr als 600 Millionen Seiten mit insgesamt 14 Millionen Illustrationen, die sich am Ende alle bei Flickr sollen. Über das heute Erreichte hinaus werden also noch fast 12 Millionen Seiten hinzukommen.

Die Bilder stammen aus der Bibliothek des Internet Archive; die Originale sind bis zu 500 Jahre alt. Ein Werkzeug erfasst die Texte, generiert automatisch Tags und sorgt so für eine voll durchsuchbare Datenbank. In einem Blogbeitrag heißt es dazu: „Weil wir die Bücher mit OCR erfassen, konnten wir etwa 500 Wörter vor und nach jedem Bild anfügen. Sie können sich die Sammlung also nicht nur ansehen und durchklicken, sondern zu jedem Bild etwas lesen. Stellen Sie sich eine Volltext-Suche für Bilder vor!“

Die OCR-Software des Internet Archive ist eigentlich für die Digitalisierung von Texten zuständig. Sie verfügt über ein eigenes Modul, um Bilder von der Erfassung auszuschließen. Hier setzt Leetaru mit einem neuen Tool an: Es macht solche Auslassungen ausfindig, sucht in den Original-Scans nach dem ausgelassenen Bereich und speichert ihn als JPEG-Datei. Diese werden zu Flickr hochgeladen. (Angesichts einiger irrtümlich hochgeladener Leerstellen erscheint allerdings eine nachträgliche Sichtkontrolle durch einen Menschen ratsam.)

Der BBC gegenüber erklärte der Forscher, die Sammlung ermögliche Besuchern eine Zeitreise: „Tippen sie mal „telephone“ ein, und Sie werden feststellen, dass alle frühen Bilder des Telefons Geschäftsleute zeigen – überwiegend Männer. Später wnadelt es sich in ein Werkzeug, um Familien zu verbinden. Eine interessante Bildfolge bietet auch die Eisenbahn, auf Englisch ‚railroad‘: In den ersten Bildern geht es um Fortschritt und Verändern der Welt, später wird sie Teil des Alltags.“

Den genutzten Code wollen Leetaru und das Internet Archive später auch Partnern zur Verfügung stellen, die dann zusätzliche Bilder beitragen können. Die Sammlung ist auf Flickr jedermann zugänglich. Flickr gehört bekanntlich zu Yahoo. Es ist wohl nicht zufällig auch Sponsor von Leetarus Lehrstuhl.

[mit Material von Michelle Starr, News.com]

Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Themenseiten: Flickr, Kamera, Soziale Netze, Suchmaschine, The Internet Archive, Yahoo

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Internet Archive stellt 14 Millionen historische Illustrationen bei Flickr ein

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *