Yahoo veröffentlicht Big Data für KI-Forscher

Yahoo hat eine unkomprimiert 13,5 TByte große Datensammlung für Forscher verfügbar gemacht. Sie soll Datenwissenschaftlern als Test- und Analysematerial dienen, wie Suju Rajan von den Yahoo Labs in einem Blogbeitrag schreibt. Die Sammlung wird Yahoo News Feed genannt.

„Viele akademische Forscher und Datenwissenschaftler haben keinen Zugang zu wirklich großen Datensätzen, weil diese traditionell nur in großen Firmen vorhanden sind“, schreibt Rajan. Es handle sich um anonymisierte Zugriffe von etwa 20 Millionen Nutzern auf eine Reihe von Yahoo-Sites, darunter die Bereiche Filme, Finanzen, Immobilien, Nachrichten und Sport sowie die Yahoo-Homepage. Dafür wurden zwischen Februar und Mai 2015 über 110 Milliarden Vorgänge erfasst.

Die anonymen Daten enthalten gleichwohl Angaben zum Altersbereich, Geschlecht und ungefährem Standort, daneben Zeitstempel, Titel, Zusammenfassungen und Schlüsselausdrücke abgerufener Artikel. Auch spezifizieren sie, welches Gerät und welche Software für den Zugriff genutzt wurde. Sie enthalten auch Bilder und die mit den Inhalten ausgelieferte Werbung.

Als ersten Nutzer der Daten für die akademische Forschung weist Yahoo die University of California in San Diego vor. Diese erprobt damit den Einsatz von „Maschinellem Lernen, Künstlicher Intelligenz und Big-Data-Anwendungen.“ Für die Universität kommentiert Professor Gert Lanckriet: „Zugang zu Datensätzen dieser Größe ist essenziell, um Algorithmen und Techniken für Maschinelles Lernen zu konzipieren und zu schreiben, die sich dann für wirkliche ‚Big Data‘ eignen.“

Forscher können die Daten aus der Webscope-Bibliothek der Yahoo Labs herunterladen. Komprimiert umfassen sie immer noch 1,5 TByte. In Webscope hatte Yahoo insgesamt schon 56 Datensammlungen verfügbar gemacht. Die bisher größte umfasste unkomprimiert 1 TByte.

WEBINAR

Wie eine optimale IT-Infrastruktur für UCC-Lösungen die Produktivität Ihrer Mitarbeiter steigert

Das Webinar “Wie eine optimale IT-Infrastruktur für UCC-Lösungen die Produktivität Ihrer Mitarbeiter steigert” informiert Sie über die Vorteile einer Unified Communications & Collaboration-Lösung (UCC) und skizziert die technischen Grundlagen, die für die erfolgreiche Implementierung nötig sind. Jetzt registrieren und die aufgezeichnete Fassung des Webinars ansehen.

Yahoo hat sich zuletzt besonders intensiv um externe Entwickler bemüht. So wurden Algorithmen für die Auswertung von Datenströmen und ein speziell für strukturierte Daten auf Websites ausgelegter Webcrawler öffentlich gemacht.

Die auf Mobilanwendungen und Unterhaltung ausgerichtete Strategie von CEO Marissa Mayer scheint noch aber zur erhofften Trendwende zu führen. Im Management muss Yahoo immer wieder Abgänge hinnehmen, und die Belegschaft will es nun einem Bericht zufolge um 10 Prozent reduzieren. Es reagiert damit offenbar auf Kritik von Investoren, die auch schon Mayers Ablösung fordern.

[mit Material von Rachel King, ZDNet.com]

Tipp: Was haben Sie über Big Data abgespeichert? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Forscher entwickeln Exploits per GPT-4 aus Sicherheitswarnungen

Die Tests basieren auf tatsächlich existierenden Sicherheitslücken. GPT-4 erreicht eine Erfolgsquote von 87 Prozent. Alle…

17 Stunden ago

HostPress für Agenturen und E-Commerce Betreiber

Vorstellung Im Jahr 2016 hat Marcus Krämer die Firma HostPress gegründet, da es zu diesem…

19 Stunden ago

V-NAND: Samsung steigert Bit-Dichte um 50 Prozent

Die neue V-NAND-Generation bietet die derzeit höchste verfügbare Bit-Dichte. Samsung steigert auch die Geschwindigkeit und…

24 Stunden ago

Bericht: Google entwickelt App-Quarantäne für Android

Die Sicherheitsfunktion taucht in einer Beta eines kommenden Android-Updates auf. Die Quarantäne beendet unter anderem…

2 Tagen ago

Kostenloser Kurs zum Ausbau von Low-Code-Programmierung

Die OutSystems Developer School hilft Entwicklern, in 2 Wochen komplexe reaktive Anwendungen mit der Low-Code-Plattform…

2 Tagen ago

Cloudflare: DNS-basierte DDoS-Angriffe steigen im ersten Quartal um 80 Prozent

Das Jahr 2024 beginnt laut Cloudflare mit einem Paukenschlag. Die automatischen Systeme des Unternehmens wehren…

2 Tagen ago