Trainingsschluss – Droht der urheberrechtliche Super-GAU für AI-Entwickler? | HÄRTING Rechtsanwälte

Die US-amerikanische Authors Guild hat im Namen zahlreicher namhafter Autoren, darunter Jonathan Franzen, John Grisham und George R. R. Martin, in New York einen class-action lawsuit gegen ChatGPT-Entwickler OpenAI eingelegt. Was OpenAI vorgeworfen wird, wie das bewiesen werden soll, welche Argumente vorgebracht werden und wie die Rechtslage in diesem Fall in Deutschland wäre, erfahren Sie hier.

26. September 2023

Übersicht

Der Vorwurf

OpenAI wird die urheberrechtswidrige Nutzung der geschützten Werke der Autoren für das Training der Large Language Modelle GPT-3, GPT-3.5 und GPT-4 vorgeworfen. Das Unternehmen soll in großem Stil online verfügbare E-Books ohne die erforderlichen Lizenzen aus illegalen Datensätzen kopiert haben, um diese als Trainingsdaten für ihre Sprachmodelle einsetzen zu können. OpenAI wird vorgeworfen, dies bewusst getan zu haben, damit beim Training der Sprachmodelle möglichst hochwertige und umfangreiche Textdaten vorliegen.

Der technische Hintergrund

Die GPT-Modelle basieren auf der statistischen Auswertung von Wort- und Satzzusammenhängen. Das bedeutet, dass aus riesigen Datenmengen bestimmte Zusammenhänge, die natürliche menschliche Sprache ausmachen, extrahiert werden, so dass das Sprachmodell „neue“ Sätze formen kann, die diesen Zusammenhängen entsprechen.

Für ein gutes Sprachmodell sind gute Trainingsdaten erforderlich. Besonders gut eignen sich Bücher, die eine große Menge an fehlerfreiem Text enthalten. Bücher bieten zudem Zugriff auf diverse Textformen. Das Sprachmodell lernt bestimmte Stile (z. B. wissenschaftlich Schreiben aus Sachbüchern) und Formen (z. B. einen inneren Monolog oder einen Dialog). Aus diesen Gründen hat OpenAI bewusst Bücher in die Trainingsdaten aufgenommen. Das ist soweit auch allseits bekannt und nach wie vor üblich beim Training von Sprachmodellen.

Die Argumente

Was bislang aber ungeklärt ist: Darf man das überhaupt? Bücher sind das idealtypische urheberrechtlich geschützte Werk (vgl. § 2 Abs. 1 Nr. 1 UrhG oder Copyright Act of 1976, 17 U.S.C., § 102(a)(1)). Ohne Erlaubnis durch den Urheber ist ihre Nutzung also nur in engen Grenzen zulässig. Nach Ansicht der klagenden Autoren wurden diese Grenzen durch OpenAI missachtet.

Für das Training eines Sprachmodells müssen die Werke immer vervielfältigt werden, damit sie in den Satz der Trainingsdaten übernommen werden können. Schon diese Vervielfältigung ist ohne Lizenz im Regelfall unzulässig. Ist damit also alles geklärt? OpenAI wird die Bücher vervielfältigt haben, also ist der Urheberrechtsverstoß doch klar oder nicht?

So einfach ist das natürlich nicht. Die Entwickler von Sprachmodellen berufen sich auf die (in Deutschland übrigens nicht existente) „fair use“-Ausnahme nach 17 U.S.C., § 107. Die „fair use“-Ausnahme gilt für alle Nutzungen urheberrechtlich geschützter Werke für wissenschaftliche und künstlerische Zwecke. Das heißt es handelt sich um eine offene Ausnahme, für alle Nutzungen, die „fair“ sind. Wann eine Nutzung „fair“ ist, soll anhand einer Abwägung bestimmter Kriterien festgestellt werden können. Ausdrücklich genannt sind der Zweck der Verwendung, die Eigenart des verwendeten Werkes, die Erheblichkeit der Nutzung und die Auswirkungen auf den Markt oder den Wert des verwendeten Werkes. Die „fair use“-Ausnahme soll dazu beitragen, dass der Zweck des Urheberrechtes sinnvoll wirkt: Durch den urheberrechtlichen Schutz soll Fortschritt durch Forschung und Kreativität dadurch angereizt werden, dass deren Verwertung geschützt ist. Da aber jede Forschung und Kunst von vorhergehenden Ergebnissen und Werken inspiriert ist, muss es eine Ausnahme vom Urheberrechtsschutz geben, damit es nicht zum Stillstand kommt (so begründet der Supreme Court die Ausnahme, siehe: Campbell v. Acuff-Rose Music, Inc. – 510 U.S. 569 (1994), S. 575). In der amerikanischen Rechtspraxis wird in „fair use“-Fällen üblicherweise auf die bisherige Rechtsprechung zurückgegriffen, um die offene Vorschrift besser zu verstehen. Beispiele sind Parodien, Kritiken oder die Verwendung im Schulunterricht.

Eine interessante Konsequenz der Ausnahme ist zum Beispiel schon die Unternehmensstruktur der Entwickler von Sprachmodellen. Diese sind im Allgemeinen aufgeteilt in einen Nonprofit-Zweig, der die Forschung vornimmt (hier: OpenAI Inc.) und einen kommerziellen Zweig, der das Sprachmodell vermarktet (hier: OpenAI LLC). Dadurch können die Entwickler argumentieren, sie würden die Trainingsdaten zu nicht-kommerziellen Forschungszwecken verwenden, was für „fair use“ spricht.

OpenAI wird sich außerdem darauf berufen, dass beim Training des Sprachmodells nichts anderes passiert, als ein sehr umfangreicher und effektiver Konsum von urheberrechtlich geschützten Werken, von denen sich die Modelle dann „inspirieren“ lassen. Vor allem wird OpenAI auf den Zweck der Vorschrift verweisen können und darauf hinweisen, dass Fortschritt in der wohl wichtigsten neuen Technologie des 21. Jahrhunderts nur schleppend möglich wäre, wenn urheberrechtlich geschützte Werke nicht mehr für das Training verwendet werden dürfen. Gerade diese Situation soll die Ausnahme verhindern.

Die tatsächlichen Konsequenzen der Auswertung urheberrechtlich geschützter Werke zieht diese Argumente jedoch stark in Zweifel. Je besser die Sprachmodelle werden, desto erheblicher werden die Auswirkungen auf die Urheber der genutzten Werke. Schon jetzt greifen viele Unternehmen lieber zu schnelleren und günstigeren AI-generierten Alternativen, als einen Künstler dafür zu bezahlen. Langfristig droht also – so argumentiert auch die Klage – das Aussterben der Berufsgruppe des Autors, dadurch dass die Werke ebenjener Autoren ohne Kompensation ausgewertet wurden und das Sprachmodell annähernd deren Stil rekreieren kann.

Auch ob die rechtliche Unternehmensstruktur die Gerichte angesichts der offensichtlichen Kommerzialisierbarkeit durch denselben Konzern überzeugt, ist nicht mit Sicherheit gesagt. Generell gilt: ohne gerichtliche Entscheidung ist bei „fair use“-Fällen alles offen. Die Ausnahme baut bewusst auf Case-Law auf.

Die Beweise

Die Klage stützt sich zum einen auf allgemeine und zum anderen auf Beweise zu konkreten Büchern.

Allgemein verweist die Klage auf die bekannten Datensätze von GPT-Sprachmodellen, die unter anderem als „Books1“ und „Books2“ betitelte Datenbanken enthalten. Angesichts des Umfangs dieser Datenbanken (über 100.000 Bücher) könne davon ausgegangen werden, dass die Werke unrechtmäßig von einschlägigen Piraterie-Portalen heruntergeladen wurden. Dies wäre schon deshalb der Fall, weil es sonst keine entsprechend umfangreichen digitalen Bücher-Datenbanken im Internet gäbe. Außerdem hat eine unabhängige Forschung bewiesen, dass die Generation umfangreicher Datenbanken mithilfe illegaler Portale grundsätzlich möglich ist.

Bis zu einer entsprechenden Änderung durch OpenAI soll es sogar möglich gewesen sein, GPT-3 durch einen entsprechenden Prompt dazu zu bringen, im Wortlaut aus Büchern zu zitieren. Heute informiert ChatGPT den Nutzer darüber, dass es nicht aus urheberrechtlich geschützten Werken zitieren könne.

In Bezug auf die konkreten Werke will die Klage den Beweis auch durch Prompts führen. So wurde das Sprachmodell veranlasst eine Zusammenfassung von Büchern bestimmter Autoren zu verfassen, eine Zusammenfassung einer hypothetischen Fortsetzung zu schreiben und das letzte Kapitel zusammenzufassen. Alles Dinge, die – ohne das Buch als Trainingsdaten vorliegen zu haben – nicht möglich sein sollen, so die Klage. Die Ausführungen sind von unterschiedlicher Beweiskraft, gerade die Zusammenfassung des Buches scheint wenig überzeugend, wenn man bedenkt, dass diese auch – legitimerweise – durch die Auswertung von frei verfügbaren Zusammenfassungen im Internet zustande gekommen sein könnten. Überzeugender ist da schon die Zusammenfassung spezifischer Kapitel und die hypothetische Fortsetzung, sofern diese detailliert auf Ereignisse und Charaktere eingeht, die nicht in Zusammenfassungen enthalten sind.

Sehr interessant ist ein Ansatz, der im Zusammenhang mit „Game of Thrones“ von George R. R. Martin angesprochen wird. Hier verweist die Klage auf eine Studie der University of California zur „Memorization“ einzelner Bücher, also wie gut sich die Sprachmodelle an den Inhalt von Büchern „erinnern“ können. Die Forscher sind dabei mit einem sogenannten „name cloze“-Verfahren vorgegangen. Das heißt: Das Sprachmodell wird gebeten einen Lückentext aus einem Buch zu vervollständigen. Der Lückentext ist ein beliebiger Absatz aus einem Buch, aus dem ein beliebiger Name eines Buchcharakters entfernt wurde. Ein Mensch scheitert an diesem Test grundsätzlich, weil es um nebensächliche Charaktere geht, die im Gedächtnis nicht hängenbleiben. GPT-4 kann die Absätze aber richtig vervollständigen, was nur dann möglich sein kann, wenn der Absatz im Wortlaut in den Trainingsdaten enthalten ist, denn im normalen Sprachgebrauch kann es keine erhöhte Wahrscheinlichkeit dafür geben, dass der richtige Name aus dem Buch in die Lücke passt. Diese Wahrscheinlichkeit nimmt GPT-4 nur dadurch an, dass der Absatz in den Trainingsdaten enthalten ist. In anderen Worten: Dadurch, dass ein bestimmter Absatz aus einem Buch mehrfach in den Trainingsdaten enthalten ist, geht GPT-4 davon aus, dass es immer ziemlich wahrscheinlich ist, dass ein bestimmter Name nach dem Satz im Lückentext gesagt wird.

Was gilt in Deutschland?

In Deutschland gilt vor allem auch: Sicher ist ohne gerichtliche Klärung nichts. Dem deutschen Urheberrecht ist „fair use“ fremd. Stattdessen gibt es viele verschiedene eng umrissene Ausnahmen für ganz bestimmte Nutzungen von Werken. Am Urheberrechtsverstoß durch Vervielfältigung besteht auch nach deutschem Urheberrecht kein Zweifel (§ 16 UrhG). Die Diskussion hierzulande dreht sich vor allem um die Ausnahme für Text- und Data-Mining aus § 44b UrhG.

Zwar wird zum Teil auch die vorübergehende Vervielfältigungshandlung diskutiert (§ 44a UrhG); wegen der Auswirkungen auf die Leistungsfähigkeit des Sprachmodells, lassen sich diese Handlungen aber nach überwiegender Meinung nicht als „begleitend“ einordnen und sind deshalb nicht tatbestandlich.

Das Text- und Data-Mining dient hingegen gerade der Ermöglichung von Fortschritt durch innovative Datenauswertungen in der Privatwirtschaft und passt deshalb am besten zu den Zielen der AI-Entwickler. Die Ausnahme gilt aber nur für bereits rechtmäßig zugängliche Werke (§ 44b Abs. 2 UrhG) und kann deshalb auf keinen Fall die Nutzung von piratisierten Büchern rechtfertigen. Zudem ermöglich § 44b Abs. 3 UrhG ein Opt-Out-Verfahren durch einen maschinenlesbaren Nutzungsvorbehalt.

Stellt sich die Faktenlage also so wie in der Klage dar, so dass die Bücher von Anbietern illegaler Vervielfältigungsstücke gescraped wurden, wäre nach deutscher Rechtslage ohne Zweifel ein ersatzpflichtiger Urheberrechtsverstoß anzunehmen. Hier stellen sich weitere nahezu unlösbare Folgefragen: Urheberrechtsverstöße lösen auch immer Unterlassungs- und Beseitigungsansprüche aus (§ 97 UrhG) – Müssen dann auch die Ergebnisse des Trainings beseitigt werden? Und wenn ja: Lässt sich das technisch überhaupt umsetzen?

Das deutsche Urheberrecht ist noch nicht entsprechend modernisiert worden und bietet außer über § 44b UrhG kein wirklich angemessenes Instrumentarium für das Training von AI. Auch der europäische AI-Act schweigt im bisherigen Entwurfsstadium zum Umgang mit Immaterialgüterrechten. Mit der zunehmenden Konzentration weltweiter Forschung auf die Verbesserung von AI-Modellen besteht hier dringender – auch europäischer – Handlungsbedarf für den Gesetzgeber, um der besonderen Situation gerecht zu werden.

Links

Zur Klage

Zur „Memorization“-Studie