Data Sharing für KI: Neue Chancen durch Daten-Lizenzierung

Ein Gastbeitrag von Thani Shamsi, Gründer und CEO des Berliner Softwareunternehmens Datarade

Daten sind der Treibstoff der KI – ohne sie bleibt der Fortschritt stehen. Bild: Freepik, rawpixel.comDaten sind der Treibstoff der KI – ohne sie bleibt der Fortschritt stehen. Bild: Freepik, rawpixel.com

Keine Daten, keine KI. So einfach ist die Formel – und zugleich so komplex in der Umsetzung. Der Siegeszug von KI-Technologien rollt in wahnsinnigem Tempo durch alle Branchen und Dienstleistungszweige, verändert bestehende Geschäftsmodelle grundlegend und eröffnet zugleich ungeahnte neue Chancen. Doch allein die immens gesteigerten Rechenleistungen oder neue KI-Modelle führen nicht zum Ziel. Es sind die Daten, die erst den entscheidenden Unterschied machen. Laut Elon Musk und Ilya Sutskever, dem ehemaligen Chief Scientist von OpenAI, sind öffentlich zugängliche Datenquellen dabei längst ausgeschöpft. Doch der Bedarf der KI ist größer – und vor allem die Notwendigkeit nach hochwertigen, einzigartigen Daten.

AI Data Licensing Deals: Die USA als Vorreiter

Viele Organisationen verfügen über umfangreiche und wertvolle Datenbestände, ohne deren Potenzial vollständig auszuschöpfen. Diese Daten, die über Jahre gesammelt und gepflegt wurden, stellen eine begehrte Ressource dar – insbesondere für KI-Systeme, deren Leistungsfähigkeit entscheidend von der Qualität der Trainingsdaten abhängt. Datenlizenzvereinbarungen zum Teilen der Daten für KI-Trainings sind daher zu einem aufstrebenden Geschäftsfeld geworden.

US-Unternehmen wie Yelp, Shutterstock und Reddit haben bereits entsprechende Vereinbarungen geschlossen, um ihre Daten zum Training von KI-Modellen zu lizenzieren. Die Lizenzvereinbarung von Reddit mit Google beispielsweise hat einen geschätzten Wert von weit über 60 Mio. USD pro Jahr, während Shutterstock Vereinbarungen mit Meta und OpenAI geschlossen hat, die allein durch generative KI mehr als 100 Mio. USD an Einnahmen erwirtschaften.

Für KI-Trainings sind neben Text-Daten vor allem auch Bild-, Video-, und Audiodatenunverzichtbar. Visuelle KI wird zum zentralen Wirtschaftszweig, entsprechende Datenquellen vorausgesetzt. Neben Shutterstock macht sich das etwa auch Freepik zunutze und verdient gut daran: Rund 200 Millionen Bilder wurden nach Medienberichten bereits lizenziert. Pro Bild fließe dabei zwei bis vier Cents, was zu Lizenzsummen von rund sechs Millionen US-Dollar führen. Weitere Deals sind in Planung. Auch Photobucket steht in Verhandlungen über Fotos und Videos mit Preisen von fünf Cents bis einem US-Dollar pro Medium. Diese Deals sind nicht nur ein Trend, sondern ein fundamentaler Wandel darin, wie Unternehmen ihr geistiges Eigentum und Daten monetarisieren und neue, äußerst lukrative Einnahmequellen erschließen.

Europa zieht nach: Verlage, Einkaufsketten und die Deutsche Bahn teilen ihre Daten

Auch in Deutschland nimmt das Thema Data Sharing mit Lizenzvereinbarungen für KI-Training zunehmend Fahrt auf. Unternehmen wie die Deutsche Bahn und die Schwarz-Gruppe entwickeln gemeinsam mit Partnern wie Aleph Alpha den DataHub Europe, eine Plattform, die den rechtssicheren und effizienten Austausch von Daten fördern soll. Ziel ist es, europäische Standards für Datensouveränität und -nutzung zu setzen und gleichzeitig Innovationen im KI-Bereich zu stärken. Der Wunsch “AI made in Europe” soll mit der Plattform wahr werden, um Daten für KI-Modelle bereitzustellen, da der Durst nach qualitativ hochwertigen Daten für das Training der KI nahezu unstillbar ist. Besonders für Unternehmen, die im europäischen Markt aktiv sind, biete der DataHub Europe eine sichere Möglichkeit, Daten rechtskonform und gewinnbringend in Zusammenhang mit KI zu nutzen.

Auch klassische Medien und Content-Lieferanten wie die Nachrichtenorganisation Reuters sind bereits im Lizenzierungsmarkt aktiv unterwegs. Der Bereich „Reuters News“ konnte seine Einnahmen um 22 Millionen US-Dollar steigern. Besonders Nachrichtenarchive sind entscheidend für den weiteren Ausbau und die Professionalisierung der KI-Sprachmodelle. Der Vertrag von Associated Press mit OpenAI umfasst den Zugang zu Artikeln seit dem Jahr 1985. Gerade historische Daten stärken KI-Modelle. Auch die Axel Springer SE hat historische und aktuelle Inhalte an OpenAI lizenziert – für einen Millionen-Deal. Springer gehört damit zu den ersten großen europäischen Verlagshäusern, die aktiv am KI-Datenmarkt teilnehmen und zeigt, dass europäische Medienunternehmen sich neue Geschäftsmodelle erschließen können.

Ein weiteres Beispiel für europäische Unternehmen, die sich strategisch im Bereich Data Sharing positionieren, ist die französische Nachrichtenagentur AFP, die ebenfalls ihre Inhalte für KI-Trainings lizenziert. Diese Entwicklungen zeigen, dass Europa nicht nur regulatorische Rahmenbedingungen setzt, sondern auch aktiv an der wirtschaftlichen Nutzung von Daten teilhat.

Die Beispiele ließen sich noch länger fortführen. Und sie zeigen eines: Daten – egal ob Bilder, Texte oder historische Archive – stellen ein zentrales Kapital für KI-Unternehmen dar. Lizenzverträge generieren einerseits neue Einnahmen, werfen aber auch Fragen zum Datenschutz und zu Urheberrechten auf.

AI Data Sharing hat Grenzen: Rechtssicherer Datenaustausch als Schlüssel

So vielversprechend die Chancen des Data Sharing für KI-Training auch sind, sie gehen mit großen Verpflichtungen einher. Der rechtssichere Austausch von Daten erfordert, dass sowohl Sender als auch Empfänger klare Regeln einhalten. Unternehmen, die Daten teilen, müssen sicherstellen, dass sie geltende Gesetze wie die DSGVO und internationale Vorgaben wie die GDPR in der EU beachten. Dabei geht es nicht nur um den Schutz personenbezogener Daten, sondern auch um geistiges Eigentum und die Einhaltung nationaler Vorschriften in den Zielländern.

Auf der Empfängerseite kommen weitere Verpflichtungen hinzu. Die Nutzung von Daten, insbesondere für KI-Zwecke, unterliegt strengen Regulierungen wie dem AI Act, der klare Vorgaben zu Transparenz und Zweckbindung macht. Unternehmen, die Daten empfangen, müssen sicherstellen, dass der Einsatz dieser Daten rechtlich abgesichert ist und keine ethischen oder gesetzlichen Grenzen überschritten werden. Transparenz und Compliance sind die Grundlagen für Vertrauen in die Datenwirtschaft.

Einerseits hat sich anhand des großen Datenhungers der KI das Kräfteverhältnis zugunsten der Datenanbieter verschoben. Sie sitzen mittlerweile am längeren Hebel – eine erfreuliche Entwicklung für Unternehmen, die durch Lizenzierungsmodelle neue Einnahmequellen erschließen. Doch mit dieser Verantwortung wächst auch die Pflicht, ethisch und rechtlich einwandfrei zu handeln. Ein nachhaltiger Erfolg im Data Sharing wird nur möglich sein, wenn beide Seiten – Anbieter und Nutzer – gleichermaßen Verantwortung übernehmen und sich an klare Spielregeln halten. Die Chancen sind enorm, doch der Erfolg hängt von einem ausgewogenen und rechtssicheren Ansatz ab.

© Thani Shamsi, Datarade© Thani Shamsi, Datarade

Über den Autor:
Thani Shamsi ist Gründer und CEO des Berliner Softwareunternehmens Datarade, einer Plattform zur Datenrecherche und -vergleich, sowie des Unternehmens Monda, einer Plattform für die Monetarisierung von Daten. Er verfügt über zehn Jahre Erfahrung in der Datenbranche, wo er unter anderem drei Jahre lang ein Data-as-a-Service (DaaS)-Unternehmen leitete und weiterentwickelte, bevor er sein eigenes Unternehmen gründete. Thani setzt sich leidenschaftlich für einen sicheren und datenschutzkonformen Austausch von Daten zwischen Unternehmen ein.

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Data Sharing für KI: Neue Chancen durch Daten-Lizenzierung

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *