Meta and Anthropic cases make AI copyright even more complicated

0 0 8 minutes read

Meta and Anthropic cases make AI copyright even more complicated

Au cours de la semaine dernière, les grandes entreprises d’IA ont – en théorie – ont remporté deux grandes victoires légales. Mais les choses ne sont pas aussi simples qu’elles peuvent le paraître, et la loi sur le droit d’auteur n’a pas été aussi excitante depuis la confrontation du mois dernier à la Bibliothèque du Congrès.

Tout d’abord, le juge William Alsup a jugé que c’était une utilisation équitable pour Anthropic pour s’entraîner sur une série de livres des auteurs. Ensuite, le juge Vince Chhabria a rejeté une plainte d’un autre groupe de auteurs contre Meta pour une formation sur leur Livres. Pourtant, loin de régler les énigmes juridiques autour de l’IA moderne, ces décisions auraient pu rendre les choses encore plus compliquées.

Les deux cas sont en effet des victoires qualifiées pour Meta et Anthropic. Et au moins un juge – ALSUP – semble sympathique à certains des principaux arguments de l’industrie de l’IA sur le droit d’auteur. Mais cette même décision s’est réprimée contre l’utilisation par les médias piratés par le startup, le laissant potentiellement à l’accroche pour des dommages financiers massifs. (Anthropic a même admis qu’il n’avait pas initialement acheté une copie de chaque livre qu’il a utilisé.) Pendant ce temps, la méta-décision a affirmé que parce qu’un inondation de contenu d’IA pouvait épanouir les artistes humains, l’ensemble du domaine de la formation du système d’IA pourrait être fondamentalement en désaccord avec une utilisation équitable. Et aucune des cas n’a abordé l’une des plus grandes questions sur l’IA générative: quand sortir enfreindre le droit d’auteur, et qui est sur le crochet si c’est le cas?

Alsup et Chhabria (d’ailleurs à la fois dans le district nord de la Californie) dirigeaient des ensembles de faits relativement similaires. Meta et Anthropic à la fois piraté d’énormes collections de livres protégés par le droit d’auteur pour construire un ensemble de données de formation pour leurs modèles de grande langue Llama et Claude. Anthropic a ensuite fait un tour et a commencé à acheter légalement des livres, déchirant les couvertures pour «détruire» la copie d’origine et scanner le texte.

Les auteurs ont fait valoir qu’en plus du piratage initial, le processus de formation constituait une utilisation illégale et non autorisée de leur travail. Meta et Anthropic ont répliqué que cette construction de base de données et la formation LLM constituaient une utilisation équitable.

Les deux juges ont essentiellement convenu que les LLM répondent à une exigence centrale pour une utilisation équitable: ils transforment le matériel source en quelque chose de nouveau. Alsup a appelé l’utilisation de livres pour former Claude «extrêmement transformateur», et Chhabria a conclu «il n’y a pas de contestation» la valeur transformatrice du lama. Une autre grande considération pour une utilisation équitable est l’impact du nouvel travail sur un marché pour l’ancien. Les deux juges ont également convenu que sur la base des arguments avancés par les auteurs, l’impact n’était pas suffisamment grave pour faire pencher l’échelle.

Ajoutez ces choses ensemble, et les conclusions étaient évidentes… mais seulement Dans le contexte de ces cas et dans le cas de Meta, parce que les auteurs ont poussé une stratégie juridique que leur juge a trouvé totalement incompétent.

Autrement dit: lorsqu’un juge dit que sa décision «ne représente pas la proposition selon laquelle l’utilisation par Meta des documents protégés par le droit d’auteur pour former ses modèles linguistiques est légale» et «ne représente que la proposition que ces plaignants ont fait les mauvais arguments et n’ont pas développé un record à l’appui de la bonne» – comme Chhabria – comme l’a fait – Chhabria – l’a fait – les sociétés d’IA des futures poursuites avec lui ne semblent pas très bien.

Les deux décisions traitent spécifiquement de la formation – ou des médias qui se nourrissent dans les modèles – et n’ont pas atteint la question de la sortie LLM, ou les modèles qui produisent en réponse aux invites utilisateur. Mais la sortie est, en fait, extrêmement pertinente. Un énorme combat juridique entre Le New York Times Et Openai a commencé en partie avec une affirmation selon laquelle Chatgpt pourrait mot Fois histoires. Disney a récemment poursuivi MidJourney sur la prémisse qu’il “générera, affichera publiquement et distribuera des vidéos mettant en vedette les personnages protégés par le droit d’auteur de Disney et Universal” avec un outil vidéo nouvellement lancé. Même dans les cas en attente qui n’étaient pas axés sur la sortie, les plaignants peuvent adapter leurs stratégies s’ils pensent maintenant que c’est un meilleur pari.

Les auteurs de l’affaire anthropique n’ont pas allégué que Claude produisait directement la production. Les auteurs de l’affaire Meta ont fait valoir que Llama, mais ils n’ont pas convaincu le juge – qui a constaté qu’il ne crachait pas plus de 50 mots d’un travail donné. Comme l’a noté ALSUP, le traitement unique des entrées a changé de façon spectaculaire les calculs. “Si les sorties vues par les utilisateurs avaient contrefait, les auteurs auraient un cas différent”, a écrit ALSUP. “Et, si les sorties devaient être infiltrées, les auteurs pourraient apporter un tel cas. Mais ce n’est pas ce cas.”

Dans leur forme actuelle, les principaux produits d’IA génératifs sont fondamentalement inutiles sans production. Et nous n’avons pas une bonne image de la loi qui l’entoure, surtout parce que l’utilisation équitable est une défense idiosyncrasique et au cas qui peut s’appliquer différemment à des médias comme la musique, l’art visuel et le texte. Anthropic pouvoir scanner les livres des auteurs nous dit très peu de savoir si MidJourney peut légalement aider les gens à produire des mèmes de sbires.

Minions et New York Times Les articles sont tous deux des exemples de copie directe dans la sortie. Mais la décision de Chhabria est particulièrement intéressante car elle rend la question de sortie beaucoup, beaucoup plus large. Bien qu’il ait peut-être statué en faveur de Meta, toute l’ouverture de Chhabria soutient que les systèmes d’IA sont si dommageables aux artistes et aux écrivains que leur mal l’emporte sur toute valeur transformatrice possible – en gros, car ce sont des machines spam.

L’IA générative a le potentiel d’inonder le marché avec des quantités infinies d’images, de chansons, d’articles, de livres et plus encore. Les gens peuvent inviter des modèles d’IA génératifs à produire ces sorties en utilisant une infime fraction du temps et de la créativité qui seraient autrement nécessaires. Ainsi, en formant des modèles d’IA génératifs avec des œuvres protégées par le droit d’auteur, les entreprises créent quelque chose qui sape souvent le marché de ces œuvres, et saperont donc considérablement l’incitation pour les êtres humains à créer des choses à l’ancienne.

…

Comme l’a souligné la Cour suprême, l’enquête sur l’utilisation équitable dépend fortement des faits et il existe peu de règles de ligne lumineuse. Il n’y a certainement aucune règle que lorsque votre utilisation d’un travail protégé est «transformatrice», cela vous inocule automatiquement d’une allégation de violation du droit d’auteur. Et ici, la copie des œuvres protégées, aussi transformatrices, implique la création d’un produit avec la capacité de nuire gravement au marché pour les œuvres copiées, et donc de saper gravement l’incitation pour les êtres humains à créer.

…

Le résultat est que dans de nombreuses circonstances, il sera illégal de copier des travaux protégés par le droit d’auteur pour former des modèles d’IA génératifs sans autorisation. Ce qui signifie que les entreprises, pour éviter la responsabilité de la violation du droit d’auteur, devront généralement payer les titulaires de droits d’auteur pour le droit d’utiliser leurs matériaux.

Et mon garçon, ça bien sûr serait intéressant si quelqu’un poursuivait et ferait cette affaire. Après avoir dit que «dans le grand schéma des choses, les conséquences de cette décision sont limitées», Chhabria a utilement noté que cette décision n’affecte que 13 auteurs, pas les «d’innombrables autres» dont la méta-méta du travail a utilisée. Un avis de la Cour écrit est malheureusement incapable de transmettre physiquement un clin d’œil et un signe de tête.

Ces poursuites pourraient être loin à l’avenir. Et alsup, bien qu’il n’ait pas été confronté au type d’argument que Chhabria a suggéré, semblait potentiellement antipathique. “La plainte des auteurs n’est pas différente de celle de savoir s’ils se plaignaient que la formation des écoliers pour bien écrire entraînerait une explosion d’œuvres concurrentes”, a-t-il écrit à propos des auteurs qui ont poursuivi Anthropic. «Ce n’est pas le type de déplacement compétitif ou créatif qui concerne la loi sur le droit d’auteur. La loi vise à faire progresser les œuvres originales de la paternité, pas pour protéger les auteurs contre la concurrence.» Il était également dédaigneux de l’affirmation selon laquelle les auteurs étaient privés de frais de licence pour la formation: «Un tel marché», a-t-il écrit, «n’est pas celui que la loi sur le droit d’auteur permet aux auteurs d’exploiter».

Mais même la décision apparemment positive d’Alsup a une pilule empoisonnée pour les entreprises d’IA. Formation acquis légalement Le matériel, a-t-il jugé, est une utilisation équitable protégée classique. Formation piraté Le matériel est une histoire différente, et Alsup excore absolument toute tentative de dire que ce n’est pas le cas.

“Cette ordonnance doute que tout incapacité accusée puisse jamais répondre à son fardeau d’expliquer pourquoi le téléchargement des copies source à partir de sites de pirates qu’il aurait pu acheter ou autrement accessibles était lui-même raisonnablement nécessaire à toute utilisation équitable ultérieure”, a-t-il écrit. Il y avait de nombreuses façons de numériser ou de copier des livres acquis légalement (y compris le système de scanner d’Anthropic), mais «Anthropic n’a pas fait ces choses – il a plutôt volé les œuvres de sa bibliothèque centrale en les téléchargeant à partir de bibliothèques piratées.» Finalement, le passage à la numérisation des livres n’efface pas le péché d’origine, et à certains égards, il le compose réellement, car il démontre que Anthropic aurait pu faire les choses légalement dès le début.

Si de nouvelles entreprises d’IA adoptent cette perspective, elles devront construire des coûts de démarrage supplémentaires mais pas nécessairement ruineux. Il y a le prix initial de l’achat de ce qui a été anthropique à un moment donné comme «tous les livres du monde», ainsi que tous les médias nécessaires pour des choses comme des images ou des vidéos. Et dans le cas d’Anthropic, c’était physique Fonctionne, car les copies papier de Media Dodge les types de DRM et les accords de licence Les éditeurs peuvent mettre des éditeurs numériques – alors ajoutez un coût supplémentaire pour la main-d’œuvre de les numériser.

Mais à peu près tout grand joueur d’IA qui fonctionne actuellement est connu ou soupçonné d’avoir été formé sur des livres téléchargés illégalement et d’autres médias. Anthropic et les auteurs vont tester pour hacher les accusations directes de piratage, et selon ce qui se passe, de nombreuses entreprises pourraient être hypothétiquement à risque de dommages financiers presque issus – non seulement des auteurs, mais de toute personne qui démontre leur travail a été acquise illégalement. Comme l’explique l’expert juridique Blake Reid de façon vivante, «S’il y a des preuves qu’un ingénieur torrentait un tas de choses avec la bénédiction C-suite, cela transforme l’entreprise en piñata d’argent.»

Et en plus de tout cela, les nombreux détails instables peuvent faciliter la manquer le plus grand mystère: comment cette dispute légale affectera à la fois l’industrie de l’IA et les arts.

Faisant écho à un argument commun parmi les partisans de l’IA, l’ancien Meta Executive Nick Clegg a déclaré récemment que l’autorisation des artistes pour la formation des données «tuerait essentiellement l’industrie de l’IA». C’est une affirmation extrême, et étant donné que toutes les transactions de licence sont déjà frappantes (y compris avec Vox Media, la société mère de Le verge), il semble de plus en plus douteux. Même s’ils sont confrontés à des pénalités de piratage grâce à la décision d’Alsup, les plus grandes sociétés d’IA ont des milliards de dollars d’investissement – elles peuvent résister beaucoup. Mais les joueurs plus petits, en particulier les open source peuvent être beaucoup plus vulnérables, et beaucoup d’entre eux sont aussi Presque certainement formé sur des œuvres piratées.

Pendant ce temps, si la théorie de Chhabria a raison, les artistes pourraient récolter une récompense pour avoir fourni des données de formation aux géants de l’IA. Mais il est très peu probable que les frais ferment ces services. Cela nous laisserait encore dans un paysage rempli de spam sans place pour les futurs artistes.

L’argent dans les poches des artistes de cette génération peut-il compenser le fléau de la suivante? La loi sur le droit d’auteur est-elle le bon outil pour protéger l’avenir? Et quel rôle les tribunaux devraient-ils jouer dans tout cela? Ces deux décisions ont remis des victoires partielles à l’industrie de l’IA, mais ils en laissent beaucoup plus, des questions beaucoup plus importantes sans réponse.

abdulmanannet77@gmail.com3 days ago

0 0 8 minutes read