Forscher enthüllen, dass das Meta Llama 3.1 KI-Modell das Urheberrecht verletzt - es kann 42 Prozent des ersten Harry-Potter-Buchs wiedergeben

Von Anry Sergeev | heute, 10:18
KI-Evolution: wie Collagen die Landschaft der künstlichen Intelligenz verändern Collage. Quelle: DALL-E

Kürzlich zeigte eine Studie von Stanford, Cornell und der West Virginia University dass Meta Llama 3.1 (70B), das im Juli 2024 veröffentlicht wurde, bewusst 42 % des ersten Harry-Potter-Buchs memorisiert hat, sodass es Passagen von 50 Tokens mit einer Wahrscheinlichkeit von über 50 % reproduzieren kann. Mit anderen Worten, das Modell erinnert sich nicht nur an die Handlung - es kann ganze Textabschnitte wiedergeben, wenn der erste Satz gegeben wird. Zum Vergleich: Das alte Modell erinnerte sich nur an 4,4 %.

Was ist passiert

Eine Gruppe von Forschern überprüfte, wie sehr das neue Llama an Büchern "haftete". Es stellte sich heraus, dass das KI-Modell große Abschnitte wiedergeben kann, wenn der Text sehr populär ist (wie Harry Potter oder Der Hobbit). Weniger bekannte Bücher (zum Beispiel Sandman Slim) erregten jedoch nicht viel Begeisterung: Das Modell erinnerte sich an weniger als 1 % davon.

Wissenschaftler verwendeten eine spezielle Methode, die zeigt, wie sicher das Modell in jedem nachfolgenden Wort ist - und dieses Vertrauen war so hoch, dass klar wurde, dass es es definitiv schon einmal gesehen hatte.

Wie wurde es gemessen

Sie verwendeten die Methode der Analyse der Wahrscheinlichkeiten nachfolgender Tokens: Wenn das Modell nach dem Austauschen der ersten 50 Tokens aus der Passage die folgenden reproduziert, gilt dies als Zeichen der Memorierung.

Warum ist das wichtig

  • Weil Bücher urheberrechtlich geschützt sind, und KI sie nicht einfach wie ein Drucker reproduzieren sollte.
  • Wenn es Harry Potter aus dem Gedächtnis wiederholen kann, wird es in Zukunft einfach sein, ganze Bücher zu generieren, die wie Kopien aussehen, aber einen neuen Namen tragen.
  • Das ist kein Lernen mehr, das ist Ctrl+C und Ctrl+V, und die Anwälte gingen sofort in den Modus "aha, du bist erwischt!"

Warum ist das passiert?

Weil Meta dieses Modell mit 15 Billionen Wörtern trainiert hat, was eine Menge ist. Möglicherweise wurden nicht nur Bücher, sondern auch Foren, Fan-Seiten und Rezensionen mit Zitaten in das Training einbezogen - je öfter ein Text im Datensatz erschien, desto mehr beeinflusste er das Modell.

Und was jetzt?

Wenn Anwälte beweisen, dass KI Texte fast wörtlich reproduziert, könnte das große Probleme für Meta bedeuten. Besonders weil ihr Modell offen ist und jeder es überprüfen kann. Geschlossene Sprachmodelle (OpenAI, Anthropic und Google) könnten ähnliche Probleme haben, aber es ist viel schwieriger zu beweisen. Das erschwert es Meta, sich auf der Grundlage des fairen Gebrauchs zu verteidigen - ein Gericht könnte das Gedächtnis als Beweis werten, dass das Modell einen abgeleiteten Inhalt aus einem großen Teil der Texte erstellt. Es wird auch schwierig sein zu sagen, dass dies "nichts weiter als Muster" sind.

Ironischerweise könnte die Transparenz, auf die die Schöpfer von Llama stolz sind, nun gegen sie verwendet werden.

Das heißt, dieses Sprachmodell kann Meta jetzt echte Gerichtsverfahren einbringen, weil es Texte "geschabt" hat, die es nicht so genau hätte memorisieren dürfen. Einerseits könnte das Gericht die Anforderungen an Modelle mit offenen Gewichten verschärfen: "Stellt die Waagen zur Verfügung, und ihr werdet die Beweise gegen euch erhalten". Andererseits könnten Institutionen und Gerichte, die Transparenz schätzen, aufmerksam werden. Meta und andere könnten dies als Argument verwenden, dass Offenheit ein "Dienst" und eine "Verantwortung" ist.

Quelle: understandingai.org