Categories: Open SourceSoftware

Github Copilot in der Diskussion

GitHub Copilot, der KI-Dienst von Microsoft zur Paarprogrammierung, ist seit weniger als einem Monat verfügbar, erfreut sich aber bereits großer Beliebtheit. In Projekten, in denen er aktiviert ist, werden laut GitHub inzwischen fast 40 % des Codes mit Copilot geschrieben. Das sind über eine Million Nutzer und Millionen von Codezeilen.

Diese Erweiterung und ein Back-End-Service schlagen Entwicklern Code direkt in ihren Editoren vor. Sie unterstützt integrierte Entwicklungsumgebungen (IDE) wie Visual Studio Code von Microsoft, Neovim und JetBrains. Innerhalb dieser Umgebungen schlägt die KI die nächste Codezeile vor, während die Entwickler tippen.

Das Programm kann vollständige Methoden und komplexe Algorithmen vorschlagen, aber auch Boilerplate-Code und Unterstützung bei Unit-Tests. Die Back-Engine-KI fungiert in jeder Hinsicht als Assistent für die Paarprogrammierung. Es steht den Entwicklern frei, die Vorschläge von Copilot anzunehmen, abzulehnen oder zu bearbeiten. Als Programmieranfänger kann Copilot einfache Befehle in natürlicher Sprache interpretieren und sie in eine von einem Dutzend Programmiersprachen übersetzen. Dazu gehören Python, JavaScript, TypeScript, Ruby und Go.

Microsoft, GitHub und OpenAI haben bei der Entwicklung des Programms zusammengearbeitet. Es basiert auf dem Codex von OpenAI. Der Codex wurde anhand von Milliarden öffentlich zugänglicher Quellcodezeilen – einschließlich Code in öffentlichen Repositories auf GitHub – und natürlicher Sprache trainiert, was bedeutet, dass er sowohl Programmiersprachen als auch menschliche Sprachen verstehen kann.

Rechtliche Fragen umstritten

Allerdings gibt es ein ziemlich großes Problem. Es stellt sich die rechtliche Frage, ob Codex das Recht hatte, den Open-Source-Code als Grundlage für einen proprietären Dienst zu verwenden. Und selbst wenn es legal ist, können Microsoft, OpenAI und GitHub, und damit die Nutzer von Copilot, den von ihnen „geschriebenen“ Code ethisch vertretbar nutzen?

Laut Nat Friedman, dem CEO von GitHub, als Copilot in der Betaphase veröffentlicht wurde, ist GitHub rechtlich auf der sicheren Seite, da „das Training von ML-Systemen auf öffentlichen Daten eine faire Nutzung ist“. Aber er merkte auch an: „Intellectual Property [geistiges Eigentum] und KI werden in den kommenden Jahren weltweit eine interessante politische Diskussion sein.“ Das kann man so stehen lassen.

Andere widersprechen dem vehement. Die Software Freedom Conservancy (SFC), eine gemeinnützige Organisation, die Rechtsdienstleistungen für Open-Source-Softwareprojekte anbietet, vertritt den Standpunkt, dass OpenAI ausschließlich mit auf GitHub gehosteten Projekten ausgebildet wurde. Und viele dieser Projekte wurden unter Copyleft-Lizenzen lizenziert. Bradley M. Kuhn, Policy Fellow und Hacker-in-Residence des SFC, erklärte daher: „Die meisten dieser Projekte sind nicht gemeinfrei, sondern stehen unter Free and Open Source Software (FOSS)-Lizenzen. Diese Lizenzen sehen unter anderem eine ordnungsgemäße Nennung des Autors vor, und im Falle von Copyleft-Lizenzen ist es manchmal erforderlich, dass Werke, die auf der Software basieren und/oder sie enthalten, unter derselben Copyleft-Lizenz wie das vorherige Werk lizenziert werden. Microsoft und GitHub haben diese Lizenzanforderungen seit mehr als einem Jahr ignoriert.“

Daher fordert die SFC Entwickler nicht nur auf, Copilot nicht mehr zu nutzen, sondern GitHub komplett zu verlassen. Sie wissen, dass das nicht einfach sein wird. Dank des „effektiven Marketings von Microsoft und GitHub hat GitHub die Entwickler von freier und quelloffener Software (FOSS) davon überzeugt, dass GitHub der beste (und sogar der einzige) Ort für die Entwicklung von FOSS ist. Als proprietäres, geheimes Tool ist GitHub selbst jedoch das genaue Gegenteil von FOSS“, fügte Kuhn hinzu.

Stefano Maffulli, Geschäftsführer der Open Source Initiative (OSI), der Organisation, die die Open-Source-Lizenzen überwacht, versteht zum Beispiel, „warum so viele Open-Source-Entwickler verärgert sind: Sie haben ihren Quellcode für den Fortschritt der Computerwissenschaft und der Menschheit zur Verfügung gestellt. Jetzt wird dieser Code verwendet, um Maschinen zu trainieren, noch mehr Code zu erstellen – etwas, das die ursprünglichen Entwickler weder geplant noch beabsichtigt hatten. Ich kann mir vorstellen, dass das für einige sehr ärgerlich ist.“

Dennoch meint Maffulli: „Rechtlich gesehen scheint GitHub auf der sicheren Seite zu sein.“ Es lohne sich jedoch nicht, „sich in rechtlichen Fragen zu verlieren und darüber zu diskutieren, ob es sich um eine Open-Source-Lizenz oder ein Urheberrecht handelt. Dies würde am eigentlichen Thema vorbeigehen. Offensichtlich gibt es ein Fairness-Problem, das die gesamte Gesellschaft betrifft, nicht nur Open-Source-Entwickler.“

Dilemma der modernen KI

Copilot hat die Entwickler mit einem der Dilemmata der modernen KI konfrontiert: der Abwägung der Rechte zwischen Einzelpersonen, die sich an öffentlichen Aktivitäten im Internet und in sozialen Netzwerken beteiligen, und den Unternehmen, die „nutzergenerierte Inhalte“ nutzen, um eine neue, allmächtige KI zu trainieren. Viele Jahre lang wussten Entwickler, dass sie durch das Hochladen unserer Bilder, unserer Blogbeiträge und unseres Codes auf öffentliche Internetseiten ein gewisses Maß an Kontrolle über unsere Kreationen verlieren würden. Sie haben Normen und Lizenzen geschaffen (z. B. Open Source und Creative Commons), um ein Gleichgewicht zwischen Kontrolle und Öffentlichkeit zwischen den Urhebern und der Gesellschaft als Ganzes herzustellen.

Wie vielen Milliarden Facebook-Nutzern ist bewusst, dass ihre Bilder und Tags dazu verwendet werden, eine Maschine zu trainieren, die sie beim Protestieren oder Einkaufen auf der Straße erkennt? Wie viele dieser Milliarden würden sich an dieser öffentlichen Aktivität beteiligen, wenn sie wüssten, dass sie damit eine mächtige Maschine trainieren, deren Reichweite in unser Privatleben unbekannt ist?

Entwickler können nicht erwarten, dass Unternehmen KI in Zukunft mit „gutem Willen“ und „gutem Glauben“ einsetzen, daher ist es an der Zeit, eine breitere Diskussion über die Auswirkungen von KI auf die Gesellschaft und auf Open Source zu führen.

Copilot ist die Spitze eines Eisbergs eines viel größeren Problems. Die OSI arbeitet seit einigen Monaten an einer virtuellen Veranstaltung namens Deep Dive: AI. Die OSI hofft, damit eine Diskussion über die rechtlichen und ethischen Auswirkungen von KI und die Zulässigkeit von KI-Systemen als „Open Source“ in Gang zu setzen. Das Projekt umfasst eine Podcast-Reihe, die in Kürze starten wird, und eine virtuelle Konferenz, die im Oktober 2022 stattfinden wird.

Die bekannte Open-Source-Anwältin und OSS Capital General Partnerin Heather Meeker ist der Meinung, dass Copilot rechtlich auf der sicheren Seite ist.

Die Leute sind verwirrt, wenn ein Textkörper wie Software-Quellcode – der ein urheberrechtlich geschütztes Werk ist – von anderen Software-Tools als Daten verwendet wird. Sie könnten denken, dass die von einem KI-Tool erzeugten Ergebnisse in irgendeiner Weise „abgeleitet“ von dem Textkörper sind, der für ihre Erstellung verwendet wurde.

In Wirklichkeit sind die Lizenzbedingungen für den ursprünglichen Quellcode wahrscheinlich irrelevant. KI-Tools, die prädiktive Texte schreiben, schlagen per definitionem häufig verwendete Ausdrücke oder Aussagen vor, wenn der Kontext dies zulässt. Dies würde wahrscheinlich unter die Fair-Use- oder Scene-a-faire-Verteidigung gegen Urheberrechtsverletzungen fallen – wenn es überhaupt eine Verletzung wäre. Wahrscheinlicher ist, dass es sich bei diesen häufig verwendeten Artefakten um kleine Codeschnipsel handelt, die rein funktionaler Natur sind und daher bei isolierter Verwendung überhaupt keinen Urheberrechtsschutz genießen.

Meeker merkte an, dass selbst die Freedom Software Foundation (FSF) nicht behauptet, dass Copilot eine Urheberrechtsverletzung darstelle. Wie John A. Rothchild, Professor für Recht an der Wayne State University, und Daniel H. Rothchild, Doktorand an der University of California in Berkeley, in ihrem FSF-Papier sagten: „Die Nutzung der Copilot-Ausgabe durch die Entwickler-Kunden ist wahrscheinlich keine Urheberrechtsverletzung.“ Das entlastet GitHub jedoch nicht vom Fehlverhalten, sondern spricht eher dafür, dass Copilot und seine Entwicklerkunden wahrscheinlich nicht die Urheberrechte der Entwickler verletzen“. Stattdessen argumentiert die FSF, dass Copilot unmoralisch sei, weil es sich um eine Software as a Service (SaaS) handelt.

Github und OpenAI müssen Bedenken ausräumen

Der Open-Source-Rechtsexperte und Columbia-Juraprofessor Eben Moglen ist der Meinung, dass Copilot keine ernsthaften rechtlichen Probleme hat, aber GitHub und OpenAI müssen einige Bedenken ausräumen.

Denn, so Moglen, „wie Fotokopierer oder Schere und Kleber können Code-Empfehlungsprogramme zu Urheberrechtsverletzungen führen. Daher sollten Anbieter solcher Empfehlungsdienste lizenzbewusst vorgehen, so dass Nutzer, die den empfohlenen Code in ihre Projekte einbauen, detailliert über etwaige Lizenzbeschränkungen des empfohlenen Codes informiert werden. Idealerweise sollten die Nutzer die Möglichkeit haben, Empfehlungen automatisch zu filtern, um die unbeabsichtigte Einbindung von Code mit widersprüchlichen oder unerwünschten Lizenzbedingungen zu vermeiden.“ Zurzeit tut Copilot dies nicht.

Da viele „Programmierer freier Software sich nicht damit wohlfühlen, dass Code, den sie zu freien Softwareprojekten beigesteuert haben, in eine GitHub-Code-Datenbank aufgenommen wird, über die er von der Copilot-Empfehlungsmaschine gegen Bezahlung als Snippets verbreitet wird“, so Moglen. GitHub sollte „eine einfache, dauerhafte Möglichkeit bieten, ihren Code von Copilot abzusondern“. Wenn GitHub dies nicht tut, haben sie Programmierern einen Grund gegeben, ihre Projekte woanders hin zu verlagern, wie es die SFC vorschlägt. Daher erwartet Moglen, dass GitHub eine Möglichkeit anbietet, um besorgte Entwickler davor zu schützen, dass ihr Code in den OpenAI Codex gesaugt wird.

Letztendlich werden die Gerichte entscheiden. Neben Open-Source- und Urheberrechtsfragen gibt es noch größere rechtliche Probleme bei der Verwendung „öffentlicher“ Daten durch private KI-Dienste.

Wie Maffulli sagte: „Wir müssen die Bedürfnisse aller von KI betroffenen Akteure besser verstehen, um einen neuen Rahmen zu schaffen, der den Wert von Open Source in KI einbettet und die Leitplanken für Zusammenarbeit und fairen Wettbewerb auf allen Ebenen der Gesellschaft schafft.“

GitHub ist nicht das einzige Unternehmen, das KI einsetzt, um Programmierer zu unterstützen. Googles DeepMind hat sein eigenes KI-Entwicklersystem AlphaCode, Salesforce hat CodeT5, und es gibt auch das Open-Source-System PolyCoder.

ZDNet.de Redaktion