Internet Archive stellt 14 Millionen historische Illustrationen bei Flickr ein

Das Projekt The Internet Archive hat bisher mehr als 2,6 Millionen Illustrationen und Bilder aus urheberrechtsfreien Büchern auf Flickr hochgeladen und bereitet weitere vor. Der umgebende Text wurde automatisch erfasst und fürs Tagging genutzt, sodass sich das Archiv auch durchsuchen lässt.

Bilder des Telefons im Wandel der Zeiten (Screenshot: ZDNet bei Flickr)

Die Kooperation des Internet Archive und des Bilderdienst wird durch Kalev Leetaru von der Georgetown University realisiert. Die ausgewählten 2 Millionen Bücher umfassen mehr als 600 Millionen Seiten mit insgesamt 14 Millionen Illustrationen, die sich am Ende alle bei Flickr sollen. Über das heute Erreichte hinaus werden also noch fast 12 Millionen Seiten hinzukommen.

Die Bilder stammen aus der Bibliothek des Internet Archive; die Originale sind bis zu 500 Jahre alt. Ein Werkzeug erfasst die Texte, generiert automatisch Tags und sorgt so für eine voll durchsuchbare Datenbank. In einem Blogbeitrag heißt es dazu: „Weil wir die Bücher mit OCR erfassen, konnten wir etwa 500 Wörter vor und nach jedem Bild anfügen. Sie können sich die Sammlung also nicht nur ansehen und durchklicken, sondern zu jedem Bild etwas lesen. Stellen Sie sich eine Volltext-Suche für Bilder vor!“

Die OCR-Software des Internet Archive ist eigentlich für die Digitalisierung von Texten zuständig. Sie verfügt über ein eigenes Modul, um Bilder von der Erfassung auszuschließen. Hier setzt Leetaru mit einem neuen Tool an: Es macht solche Auslassungen ausfindig, sucht in den Original-Scans nach dem ausgelassenen Bereich und speichert ihn als JPEG-Datei. Diese werden zu Flickr hochgeladen. (Angesichts einiger irrtümlich hochgeladener Leerstellen erscheint allerdings eine nachträgliche Sichtkontrolle durch einen Menschen ratsam.)

Der BBC gegenüber erklärte der Forscher, die Sammlung ermögliche Besuchern eine Zeitreise: „Tippen sie mal „telephone“ ein, und Sie werden feststellen, dass alle frühen Bilder des Telefons Geschäftsleute zeigen – überwiegend Männer. Später wnadelt es sich in ein Werkzeug, um Familien zu verbinden. Eine interessante Bildfolge bietet auch die Eisenbahn, auf Englisch ‚railroad‘: In den ersten Bildern geht es um Fortschritt und Verändern der Welt, später wird sie Teil des Alltags.“

Den genutzten Code wollen Leetaru und das Internet Archive später auch Partnern zur Verfügung stellen, die dann zusätzliche Bilder beitragen können. Die Sammlung ist auf Flickr jedermann zugänglich. Flickr gehört bekanntlich zu Yahoo. Es ist wohl nicht zufällig auch Sponsor von Leetarus Lehrstuhl.

[mit Material von Michelle Starr, News.com]

Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Gefahren im Foxit PDF-Reader

Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.

1 Tag ago

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Video-Babyphones sind ebenfalls betroffen. Cyberkriminelle nehmen vermehrt IoT-Hardware ins Visier.

1 Tag ago

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Der Downloader hat hierzulande im April einen Anteil von 18,58 Prozent. Im Bereich Ransomware ist…

1 Tag ago

Podcast: „Die Zero Trust-Architektur ist gekommen, um zu bleiben“

Unternehmen greifen von überall aus auf die Cloud und Applikationen zu. Dementsprechend reicht das Burg-Prinzip…

2 Tagen ago

Google schließt weitere Zero-Day-Lücke in Chrome

Hacker nutzen eine jetzt gepatchte Schwachstelle im Google-Browser bereits aktiv aus. Die neue Chrome-Version stopft…

2 Tagen ago

Hacker greifen Zero-Day-Lücke in Windows mit Banking-Trojaner QakBot an

Microsoft bietet seit Anfang der Woche einen Patch für die Lücke. Kaspersky-Forscher gehen davon aus,…

2 Tagen ago