Maison >Périphériques technologiques >IA >Bataille du droit d'auteur : l'épée de Damoclès plane sur les créations d'IA

Bataille du droit d'auteur : l'épée de Damoclès plane sur les créations d'IA

PHPz
PHPzavant
2023-04-12 12:43:111495parcourir

​Auteur | JAMES VINCENT

Traducteur | Zhu Xianzhong

1. L'intelligence artificielle générative est de plus en plus populaire, mais dans quelle mesure son produit est-il légal ?

Depuis l'année dernière, l'intelligence artificielle générative est devenue de plus en plus populaire. Des entreprises comme Microsoft, Adobe et GitHub intègrent la technologie dans leurs produits ; les startups lèvent des centaines de millions de dollars pour rivaliser ; le logiciel a même un impact culturel, les modèles d'IA texte-image engendrant d'innombrables modèles. culture. Mais écoutez attentivement toute discussion de l'industrie sur l'IA générative, et vous entendrez en privé, défenseurs et critiques, murmurer une question sur un ton de plus en plus inquiet : ces technologies sont-elles, en fait, légales ?

Le problème se pose en raison de la manière dont les systèmes d'IA générative sont formés. Comme la plupart des logiciels d’apprentissage automatique, ils fonctionnent en identifiant et en reproduisant des modèles dans les données. Mais parce que les données de formation que ces programmes utilisent pour générer du code, du texte, de la musique et des œuvres d’art sont elles-mêmes créées par des humains, extraites du Web, et qu’une grande partie d’entre elles sont elles-mêmes protégées par le droit d’auteur d’une manière ou d’une autre.

Pour les chercheurs en IA vivant dans un passé lointain (alias les « années 2010 »), ce n’est pas grave. À l’époque, les modèles les plus modernes ne pouvaient générer que des images floues en noir et blanc de visages de la taille d’un ongle. Il n’y a aucune menace apparente pour les humains. Mais en 2022, lorsqu’un simple amateur pourra reproduire le style d’un artiste en quelques heures à l’aide d’un logiciel comme Stable Diffusion, ou lorsque des entreprises vendront des tirages générés par l’IA et des filtres pour les réseaux sociaux, ces questions de légalité et d’éthique deviendront encore une réalité. plus urgent lorsque des contrefaçons de créateurs sont produites.

2. Est-il légal qu'un modèle d'intelligence artificielle générative soit formé sur des données protégées par le droit d'auteur ?

Prenez par exemple l'illustratrice de Disney Hollie Mengert, qui a trouvé son style artistique cloné par un étudiant en génie mécanique au Canada pour une expérience d'intelligence artificielle. L'étudiante a téléchargé 32 œuvres de Monguet et a passé plusieurs heures à former un modèle d'apprentissage automatique capable de reproduire son style. Comme Mongert l'a dit à l'expert en technologie Andy Baio (qui a couvert l'affaire) : "Personnellement, j'ai l'impression que quelqu'un fait le travail que je fais, en utilisant les choses que j'ai apprises - ce que j'ai fait à partir de 2011. Je suis un artiste professionnel depuis une école d'art - et je l'ai utilisé pour créer un art avec lequel je ne suis pas d'accord et que je n'autorise pas."

Mais est-ce juste ? Y a-t-il quelque chose que Mongert puisse faire à ce sujet ?

Pour répondre à ces questions et comprendre le paysage juridique de l'IA générative, the Verge s'est entretenu avec un éventail d'experts, notamment des avocats, des analystes et des employés de startups d'IA. Certains affirment avec certitude que ces systèmes présentent un risque élevé de violation du droit d'auteur et pourraient faire face à de graves difficultés juridiques dans un avenir proche. D’autres soutiennent le contraire : tout ce qui se passe actuellement dans le domaine de l’IA générative est légal et tout procès est voué à l’échec.

«Je vois des gens des deux côtés très confiants dans leur position, mais la réalité est que personne ne le sait», a déclaré Beo, qui suit de près la scène de l'IA générative, au Verge. "Quiconque dit être sûr de savoir comment cette affaire se déroulera devant les tribunaux se trompe."

An, chercheur spécialisé en intelligence artificielle et en droit de la propriété intellectuelle à l'Université du Sussex au Royaume-Uni, a déclaré que bien qu’il existe de nombreuses inconnues, il existe également plusieurs questions clés à partir desquelles se manifestent de nombreuses incertitudes sur ce sujet. Tout d’abord, pouvez-vous protéger par droit d’auteur la sortie d’un modèle d’IA générative ? Si oui, à qui appartient-il ? Deuxièmement, si vous détenez les droits d’auteur sur les intrants utilisés pour entraîner l’IA, avez-vous des réclamations légales sur le modèle ou le contenu qu’il crée ? Une fois ces questions répondues, une question plus vaste se pose : comment gérez-vous l’impact de cette technologie ? Quelles restrictions légales peuvent ou doivent être imposées à la collecte de données ? Peut-il y avoir une paix entre ceux qui construisent ces systèmes et ceux qui ont besoin des données pour les créer ?

Répondons à ces questions une par une.

Bataille du droit dauteur : lépée de Damoclès plane sur les créations dIA

3. Question de sortie : Pouvez-vous obtenir le droit d'auteur pour quelque chose créé par un modèle d'intelligence artificielle ?

Au moins pour la première question, la réponse n'est pas trop difficile. Aux États-Unis, il n’existe aucune protection par le droit d’auteur pour les œuvres uniquement générées par des machines. Cependant, il semble probable que le droit d'auteur soit reconnu lorsque le créateur peut démontrer un investissement humain substantiel.

En septembre de cette année, le US Copyright Office a approuvé pour la première fois l'enregistrement d'une bande dessinée avec l'aide de texte-image AI Midstravel (un logiciel générateur d'illustrations d'IA similaire au produit DALL·E de la société Open AI) généré. La bande dessinée est une œuvre complète : 18 pages de récit, avec personnages, dialogues et mise en page traditionnelle de la bande dessinée. L'enregistrement des droits d'auteur de la bande dessinée n'a pas été révoqué, malgré les informations selon lesquelles le Bureau américain du droit d'auteur réviserait sa décision. Il semble que l’un des facteurs à prendre en compte dans cette révision sera le niveau d’investissement humain impliqué dans la production des bandes dessinées. Kristina Kashtanova, l'artiste qui a créé l'œuvre, a déclaré à ipwatchdog.com que le Bureau américain du droit d'auteur lui avait demandé de "fournir des détails sur mon processus pour montrer qu'un grand nombre d'êtres humains étaient impliqués dans la création de ce roman graphique". (Le Bureau américain du droit d'auteur lui-même ne commente pas de cas spécifiques.)

Selon Guadamuz, ce sera un problème récurrent lorsqu'il s'agira d'accorder des droits d'auteur pour des œuvres générées à l'aide de l'intelligence artificielle. "Si vous tapez simplement 'le chat de Van Gogh', je ne pense pas que ce soit suffisant pour obtenir un droit d'auteur aux États-Unis", a-t-il déclaré. "Mais si vous commencez à expérimenter avec les invites, à créer quelques images, à peaufiner les images, à travailler avec des données torrent et à concevoir davantage, je peux tout à fait voir que cela est protégé par le droit d'auteur

4. des produits issus des modèles d'IA peuvent dépendre du degré d'implication humaine

Compte tenu de cette ligne directrice, il est probable que la grande majorité des résultats des modèles d'IA génératifs ne peuvent pas être protégés par le droit d'auteur. Ils sont généralement produits en masse en utilisant quelques mots-clés comme invites. Mais un processus plus complexe donne un meilleur dossier. Il peut s’agir d’œuvres controversées, comme une impression générée par l’IA qui a remporté un concours national lors d’une foire d’art. Dans ce cas, le créateur a déclaré avoir passé des semaines à peaufiner les invites et à éditer manuellement le travail fini, ce qui indique un investissement intellectuel considérable.

L'informaticien Giorgio Franceschelli, qui a écrit sur les questions de droits d'auteur sur l'IA, a déclaré que mesurer la contribution humaine était "particulièrement vrai" pour les décisions de l'UE. Et au Royaume-Uni – une autre juridiction majeure sur laquelle se concentrent les startups occidentales d’IA – la loi est encore différente. Fait inhabituel, le Royaume-Uni est l'un des rares pays à accorder des droits d'auteur pour les œuvres uniquement générées par ordinateur, mais il considère que l'auteur est « la personne qui a pris les dispositions nécessaires à la création de l'œuvre ». Encore une fois, il y a le problème des « lecteurs » multiples (cette « personne » est-elle le développeur du modèle ou son opérateur ?), mais cela donne la priorité à l'octroi d'une sorte de protection du droit d'auteur.

En fin de compte, cependant, prévient Guadamuz, l'enregistrement d'un droit d'auteur n'est que la première étape. "Le Bureau américain du droit d'auteur n'est pas un tribunal", a-t-il déclaré. "Si vous souhaitez poursuivre quelqu'un pour violation du droit d'auteur, vous devez vous inscrire, mais en fin de compte, ce seront les tribunaux qui décideront si cela est légalement exécutoire." data Pour entraîner des modèles d’intelligence artificielle ?

Pour la plupart des experts, la plus grande question concernant l'intelligence artificielle et le droit d'auteur concerne les données utilisées pour entraîner ces modèles. La plupart des systèmes sont formés sur de grandes quantités de contenu obtenu sur le Web ; il peut s'agir de texte, de code ou d'images. Par exemple, l'ensemble de données de formation pour Stable Diffusion, l'une des technologies de conversion de texte en peinture les plus importantes et les plus influentes, contient des milliards d'images extraites de centaines de domaines ; des blogs personnels sur WordPress et Blogspot à DeviantArt. Il existe des plateformes artistiques comme Shutterstock et des sites d’images de stock comme Shutterstock et Getty Images. En fait, les ensembles de données de formation pour l’IA générative sont si vastes qu’il y a de fortes chances que vous y ayez déjà participé. Bataille du droit dauteur : lépée de Damoclès plane sur les créations dIA

Le raisonnement utilisé par les chercheurs en IA, les startups et les entreprises technologiques multimilliardaires est que l'utilisation de ces images (au moins aux États-Unis) est protégée par la doctrine de l'utilisation équitable, conçue pour encourager l'utilisation de ces images. œuvres protégées par le droit d’auteur pour promouvoir la liberté d’expression.

Daniel Gervais, professeur à la Vanderbilt Law School, explique qu'il existe de nombreuses considérations à prendre en compte pour décider si quelque chose constitue un usage équitable. Gervais se spécialise en droit de la propriété intellectuelle et a beaucoup écrit sur la manière dont cela recoupe l’intelligence artificielle. Cependant, il a déclaré que deux facteurs « ressortent plus clairement ». « Quel est le but ou la nature de l'utilisation, et quel est l'impact sur le marché. » En d'autres termes : si le cas d'utilisation modifie la nature du matériau d'une manière ou d'une autre (souvent décrit comme une utilisation « transformatrice »), et si cela change la nature du matériel grâce à la collaboration avec l'auteur original. Leurs moyens de subsistance sont-ils menacés par des œuvres concurrentes ?

6. Entraîner l'IA générative sur des données protégées par le droit d'auteur peut être légal, mais vous utilisez peut-être le modèle de manière illégale

Compte tenu de la responsabilité associée à ces facteurs, Gervais a déclaré qu'il est « très probable » que le système de formation des données protégées par le droit d'auteur soit utilisé équitablement. Mais ce n’est pas nécessairement vrai pour le contenu généré. En d’autres termes : vous pouvez entraîner un modèle d’intelligence artificielle en utilisant les données de quelqu’un d’autre, mais ce que vous faites avec le modèle peut constituer une infraction. Pensez-y comme à la différence entre fabriquer de la fausse monnaie pour aller au cinéma et essayer d’acheter une voiture avec de la fausse monnaie.

Considérez le même modèle d'IA texte-image déployé dans différents scénarios : si le modèle est formé sur des millions d'images et utilisé pour générer de nouvelles images, il est extrêmement peu probable qu'il s'agisse d'une violation du droit d'auteur. Ce faisant, les données de formation ont été transformées et le résultat ne menace pas le marché de l’art original. Mais si vous affinez votre modèle sur 100 photos d’un artiste particulier et générez des images dans le même style, un artiste mécontent pourrait présenter de solides arguments contre vous.

Gervais a déclaré : « Si vous donnez à une IA 10 romans de Stephen King et dites « faites un roman de Stephen King », alors vous êtes directement en concurrence avec Stephen King. C'est probablement un défi pour l'IA.

Cependant, entre les pôles de l'utilisation juste et déloyale, il existe d'innombrables situations dans lesquelles les intrants, les objectifs et les extrants s'équilibrent de différentes manières et peuvent affecter d'une manière ou d'une autre n'importe quelle loi en vigueur.

Ryan Khurana, chef de cabinet de la société d'IA générative Wombo, a déclaré que la plupart des entreprises vendant ces services sont conscientes de ces différences. "Utiliser intentionnellement des indices basés sur des œuvres protégées par le droit d'auteur pour générer des résultats... viole les conditions de service de tous les acteurs majeurs", a-t-il déclaré au Verge dans un e-mail. Mais, a-t-il ajouté, "c'est difficile à appliquer" et la société ressent davantage d'intérêt. est "de trouver des moyens d'empêcher que les modèles soient utilisés de manière contraire au droit d'auteur... plutôt que de limiter les données d'entraînement". Cela est particulièrement vrai pour les modèles texte-image open source comme Stable Diffusion, qui peuvent être formés et utilisés sans supervision ni filtrage. L’entreprise peut se couvrir, mais elle peut également faciliter des utilisations qui portent atteinte au droit d’auteur.

Une autre variable permettant de déterminer l'utilisation équitable est de savoir si les données et les modèles de formation ont été créés par des chercheurs universitaires et des organisations à but non lucratif. Cela renforce souvent les défenses d’utilisation équitable, et les startups le savent. Par exemple, Stability AI ne collecte pas directement les données de formation du modèle, ni n'entraîne le modèle derrière le logiciel. Au lieu de cela, elle a financé et coordonné ce travail par des universitaires, et le modèle de diffusion stable a été autorisé par une université allemande. Cela permet à Stability AI de transformer des modèles en services commerciaux (DreamStudio) tout en gardant une distance juridique avec leurs inventeurs.

Baio appelle cette pratique « nettoyage des données de l'IA ». Il a noté que cette approche avait déjà été utilisée dans la création d'un logiciel d'IA de reconnaissance faciale, citant l'exemple de MegaFace, un ensemble de données compilé par des chercheurs de l'Université de Washington en récupérant des photos de Flickr. "Des chercheurs universitaires ont récupéré les données, les ont nettoyées, puis les ont utilisées par des sociétés commerciales", a déclaré Baio, ajoutant que les données - y compris des millions de photos personnelles - étaient détenues par "la société de reconnaissance faciale Clearview AI, les services chargés de l'application de la loi et le gouvernement chinois". ». Ce processus de nettoyage testé et éprouvé à plusieurs reprises peut aider à protéger les créateurs de modèles d’IA génératifs de toute responsabilité.

Cependant, il y a un dernier rebondissement à tout cela, car Gervais souligne que l'interprétation actuelle de l'usage loyal pourrait changer dans les années à venir en raison des changements en instance devant la Cour suprême impliquant Andy Warhol et Prince. L'affaire impliquait l'utilisation par Warhol des photographies de Prince pour créer des œuvres d'art. S'agit-il d'un usage loyal ou d'une violation du droit d'auteur ?

"La Cour suprême a souvent le bout du bâton, alors quand elle le fait, elle fait généralement quelque chose de grand. Je pense qu'elle fera la même chose ici", a déclaré Gervais. "Et, en attendant que la Cour suprême change la loi, il est risqué de dire que tout est réglé en droit."

Bataille du droit dauteur : lépée de Damoclès plane sur les créations dIA

7 Comment les artistes et les entreprises d'intelligence artificielle peuvent-ils parvenir à la paix ?

Même si la formation de modèles d'IA génératifs s'avère couverte par le fair use, cela ne résoudra guère le problème dans ce domaine. Cela n’apaisera pas les artistes mécontents du fait que leur travail soit utilisé pour promouvoir des modèles commerciaux, et cela ne s’appliquera pas nécessairement non plus à d’autres domaines de l’IA générative, tels que le code et la musique. Dans cette optique, la question est la suivante : quels remèdes, techniques ou autres, peuvent être introduits pour permettre à l’IA générative de s’épanouir tout en accordant du crédit ou une compensation aux créateurs dont le travail rend ce domaine possible ?

La suggestion la plus évidente est d'accorder une licence sur les données et de payer ses créateurs. Mais pour certains, cela tuerait l’industrie. Bryan Casey et Mark Lemley, auteurs de « Fair Learning », ont déclaré que l'ensemble des données de formation était si vaste qu'« il n'y avait aucune option raisonnable pour accorder une licence à toutes les photos, vidéos, fichiers audio ou textes sous-jacents à de nouvelles fins ». Autoriser toute revendication de droit d'auteur, affirment-ils, "équivaut à dire qu'au lieu que le titulaire du droit d'auteur soit indemnisé, l'utilisation n'est pas du tout autorisée". Permettre « l’apprentissage équitable », comme ils l’appellent, encourage non seulement l’innovation, mais permet également le développement de meilleurs systèmes d’IA.

Cependant, d'autres ont souligné que nous avons déjà résolu des problèmes de droit d'auteur d'une ampleur et d'une complexité similaires et que nous pouvons le faire à nouveau. Plusieurs experts interrogés par The Verge ont cité une comparaison avec l'ère du piratage musical, lorsque les programmes de partage de fichiers reposaient sur des violations massives du droit d'auteur et prospéraient avant que des contestations juridiques n'apparaissent et conduisent à de nouveaux protocoles respectant le droit d'auteur.

Plus tôt ce mois-ci, Matthew Butterick a déclaré au Verge : « Donc, au début des années 2000, vous aviez Napster, et tout le monde l'adorait, mais c'était complètement illégal. Et aujourd'hui, nous avons des sociétés comme Spotify et iTunes. » Actuellement. , Matthew Butrick est un avocat qui poursuit des entreprises pour avoir collecté des données afin de former des modèles d'intelligence artificielle. "Comment ces systèmes naissent-ils ? Alors que les entreprises concluent des accords de licence et introduisent du contenu légalement. Pour moi, l'idée qu'une telle chose est impossible avec l'intelligence artificielle est un désastre. . Les entreprises et les chercheurs expérimentent déjà des moyens de rémunérer les créateurs

Ryan Khurana de Wombo prédit des résultats similaires. "La musique est de loin soumise aux règles de droit d'auteur les plus complexes en raison des différents types de licences, de la variété des titulaires de droits d'auteur et des différents intermédiaires impliqués", a-t-il déclaré au Verge. "Compte tenu des nuances des questions juridiques entourant l'IA, la différence est que, Je pense que l’ensemble du domaine de la génération évoluera vers un système de licence similaire à celui de la musique.

D’autres alternatives sont également testées. Shutterstock, par exemple, a annoncé son intention de créer un fonds pour récompenser les personnes qui vendent leurs travaux à des sociétés d'IA pour former leurs modèles, tandis que DeviantArt a créé une balise de métadonnées pour les images partagées en ligne qui avertit les chercheurs en IA de ne pas altérer son contenu. (Au moins un petit réseau social, Cohost, utilise déjà le label sur son site et affirme qu'il "n'exclura pas une action en justice" s'il s'avère que les chercheurs ont fait tout leur possible pour supprimer ses images.) Cependant, ces méthodes ont a rencontré des critiques de la part de différents groupes artistiques de la communauté. Des droits de licence uniques compenseront-ils la perte de moyens de subsistance ? Comment les tags sans rayures actuellement déployés peuvent-ils aider les artistes dont le travail est déjà utilisé pour former des systèmes commerciaux d’intelligence artificielle ?

Pour de nombreux créateurs, il semble que le mal soit fait. Mais les startups de l’IA proposent au moins de nouvelles approches pour l’avenir. Un progrès évident est que les chercheurs en IA doivent uniquement créer des bases de données dans lesquelles il n'y a aucune possibilité de violation du droit d'auteur - soit parce que le matériel est sous licence appropriée, soit parce qu'il a été créé dans le but spécifique de la formation en IA. Un exemple est « The Stack » – un ensemble de données utilisé pour entraîner l’intelligence artificielle et conçu spécifiquement pour éviter les accusations de violation du droit d’auteur. Il ne contient que du code avec les licences open source les plus permissives et offre aux développeurs un moyen simple de supprimer des données sur demande. Ses créateurs affirment que leur modèle peut être utilisé dans toute l’industrie.

« L'approche de The Stack peut certainement être appliquée à d'autres médias », a déclaré à The Verge Yacine Jernite, directrice de l'apprentissage automatique et de la société chez Hugging Face, qui a créé The Stack en partenariat avec ServiceNow. "Il s'agit d'une première étape importante dans l'exploration des mécanismes de consentement généralisés qui fonctionnent le mieux compte tenu des règles des plates-formes à partir desquelles les données de formation en IA sont extraites." créateur. Mais jusqu’à présent, l’approche de l’entreprise a été inhabituelle.

9. Que va-t-il se passer ensuite ?

Partout où l’on tombe sur ces questions juridiques, différents acteurs du domaine de l’IA générative se préparent déjà à quelque chose. Les entreprises qui gagnent des millions grâce à cette technologie renforcent leur position en affirmant à plusieurs reprises que tout ce qu’elles font est légal (tout en espérant probablement que personne ne remette en question cette affirmation). De l’autre côté du « no man’s land », les détenteurs de droits d’auteur ont adopté des positions provisoires sans toutefois s’engager pleinement dans l’action. Getty Images a récemment interdit le contenu de l'IA en raison des risques juridiques potentiels qu'il faisait courir aux clients (le PDG Craig Peters a déclaré au Verge le mois dernier) : « Je ne pense pas que ce soit la chose responsable à faire, au contraire, je pense que c'est probablement illégal. » et le groupe professionnel de l'industrie musicale RIAA affirme que les mélangeurs et extracteurs de musique alimentés par l'IA portent atteinte aux droits d'auteur des membres (bien qu'ils n'aient pas lancé de véritables poursuites judiciaires

Cependant, avec le récent recours collectif intenté contre). Microsoft, GitHub et OpenAI, le premier coup de feu dans la guerre des droits d'auteur sur l'intelligence artificielle a été tiré. L'affaire accuse les trois sociétés ci-dessus d'avoir codé via l'IA sans obtenir la licence appropriée. Assistant Copilot a délibérément copié le code open source. l'avocat du procès a déclaré que cela pourrait créer un précédent pour l'ensemble du domaine de l'intelligence artificielle générative

"Une fois que quelqu'un aura révélé la vérité, je pense que le procès commencera. Voler partout. "

Pendant ce temps, Guadamuz et Baio ont déclaré qu'ils étaient surpris qu'il n'y ait pas eu d'autres contestations judiciaires connexes. "Honnêtement, je suis stupéfait", a déclaré Guadamuz. "Mais je pense que c'est en partie parce que ces industries craignent d'être les premier à perdre. Cependant, une fois que quelqu’un aura révélé la vérité, je pense que les poursuites judiciaires commenceront à voler partout. "

Une difficulté, a déclaré Baio, est que bon nombre des personnes les plus touchées par cette technologie - les artistes et autres - ne sont tout simplement pas en bonne position pour engager des poursuites judiciaires. "Ils n'ont pas les ressources, ", a-t-il déclaré. Ce type de litige est très coûteux et prend beaucoup de temps et ne devrait être engagé que si vous savez que vous gagnerez. C'est pourquoi j'ai pensé pendant un moment que les premiers procès concernant l'art de l'IA viendraient des sites d'images de stock. Ils semblent sur le point de perdre beaucoup de cette technologie, ils peuvent clairement prouver que leur vaste corpus a été utilisé pour former ces modèles, et ils disposent des fonds nécessaires pour le poursuivre en justice. "

Guadamuz était d'accord. "Tout le monde sait à quel point cela va coûter cher", a-t-il déclaré. "Celui qui intente une action en justice obtiendra une décision devant le tribunal inférieur, puis fera appel, puis fera à nouveau appel. En fin de compte, cela pourrait aller jusqu'à la Cour suprême. »

Lien original : https://www.theverge.com/23444685/generative-ai-copyright-infringement-legal-fair-use-training-data

Introduction du traducteur

Zhu Xianzhong, 51CTO Community Rédacteur, blogueur expert 51CTO, conférencier, professeur d'informatique dans une université de Weifang et vétéran de l'industrie de la programmation indépendante ​

.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer