Harry Potter, Hunger Games : ChatGPT s'exerce en pillant des livres protégés

Clément Solym
Actualité.com
sam., 20 mai 2023 01:05 UTC

Des chercheurs ont découvert que les versions de ChatGPT avaient été entraînées sur des livres protégés par des droits d'auteur. Les résultats publiés démontrent clairement le recours à des œuvres protégées pour améliorer les capacités de l'IA. De quoi ouvrir grand les portes d'une plainte pour violation du copyright...

Les chercheurs de l'Université Berkeley (Californie) avancent, preuve à l'appui, que ChatGPT et son successeur GPT-4 ont mémorisé un grand nombre de pages de livres sous copyright. Les auteurs, dont Kent Chang, Mackenzie Cramer, Sandeep Soni et David Bamman, posent ainsi la question de la légalité des modèles de langage, dès lors qu'ils relèvent d'œuvres sous droit.

Les deux intelligences artificielles ont été développées par la société privée OpenAI et formées sur d'énormes quantités de données, mais on ne sait pas exactement quels textes servent à construire les IA.

572 livres clairement identifiés

Le titre de l'article relève du poème en soi : Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 (voir ici). Les conclusions, elles, mettront en rage les services juridiques :

« Nous constatons que les modèles OpenAI ont mémorisé une large collection de documents protégés par le droit d'auteur. »

Et la suite est à l'aune :

« Le niveau d'utilisation est corrélé à la fréquence à laquelle des passages de ces livres apparaissent sur le Web. »

En somme, plus un titre est cité sur la toile, plus les robots s'y intéressent. Et le prennent comme référence.

Science-fiction, fantasy : les goûts de l'IA

Le contrôle et la vérification des sources auxquelles puisent les IA relèvent du casse-tête. Les corpus, totalement inconnus, compliquent en effet toute analyse quantitative et qualitative. Pour y répondre, les chercheurs ont conduit un test type « name cloze » : la solution passe en revue le nombre d'occurrences de termes. Elle aboutit à l'identification des passages utilisés par la machine.

Conclusion : les romans de science-fiction et de fantasy comptent parmi les premières sources : les titres Harry Potter, la saga Hunger Games, Dune, ou encore Le Trône de fer... On y découvre également des œuvres du domaine public, comme 1984 d'Orwell ou Le Seigneur des Anneaux. Sur ce point, aucune difficulté. La liste complète des titres repérés est d'ailleurs disponible à cette adresse : sur les 572 titres ont été recensés, plus de la moitié est parue après 1960.

IA et transparence...

Dans leurs préconisations, les universitaires préconisent de recourir plus systématiquement à des données et des ouvrages du domaine public. Une transparence qui aurait aussi pour conséquence d'épargner toute contrefaçon.

Attendu que les laboratoires de développement d'IA ne divulguent aucune des sources servant à leur travail d'enrichissement des machines, les risques juridiques apparaissent désormais clairement.

Des efforts à fournir

« La curation des données est encore très immature quand on touche à l'apprentissage automatique », résume Margaret Mitchell, chercheuse en IA, auprès du Register.

Toutefois, l'étude se concentre moins sur les implications en matière de droit d'auteur que sur les corpus — et donc la nature même des œuvres servant au perfectionnement des IA. Pour autant, les répercussions se devinent aisément, tant que les outils puiseront dans les œuvres protégées.

D'ailleurs, un précédent existe : le langage naturel, développé par un certain moteur de recherche, Google, s'appuyait sur la numérisation des millions de bouquins. C'était là une des grandes finalités de Google Books, aujourd'hui converti en librairie en ligne. Or, sur l'ensemble des documents scannés et reproduits, le nombre de livres sous droit s'avérait digne d'un procès.

Certes perdu par les plaignants... mais tout de même.

Commentaires des Lecteurs

guibus · 2023-05-21T11:51:51Z

ça amène surtout à un plaidoyer pour annuler purement et simplement la notion de copyright au profit du copyleft.

Si on regarde l'histoire de l'art et de la science, avec un copyright nombres d'oeuvres et inventions n'auraient tout simplement pas été écrites, ou auraient été tellement taxées par le racket des institutions de "protection des ayant droits/parasites" qu'elles auraient simplement été obligées de s'arrêter à la première.

Le copyright est une insulte à l'intelligence humaine et demander un copyright c'est vomir sur tous ceux dont on s'est nourris pour être ce que l'on est aujourd'hui, c'est leur voler leur héritage.

Quand je vois que certains s'arrogent le droit d'apposer leurs copyrights/excréments sur des oeuvres données à l'humanité par leur créateur (enseignements du bouddha, de Jésus ...), sous le prétexte qu'ils les ont traduites dans leur langue par exemple, ça donne presque des envies de meurtre.

annajohnson44 · 2024-11-23T15:41:35Z

Aujourd'hui, l'intelligence artificielle crée des textes, mais elle n'utilise pas toujours les sources de manière éthique, comme les livres protégés par des droits d'auteur. Si vous devez créer quelque chose par vous-même, comme un CV de qualité, il est préférable d'utiliser des outils spécialisés tels que [Lien] PDFflex. Ce service vous permet de créer un CV professionnel sans complications inutiles ni risques d'infraction. Vous recevrez ainsi un document prêt à l'emploi, créé de manière honnête et efficace.

Quand on arrive au Sénégal, c'est pratiquement la première des choses dont on se trouve informés. C'est une honte qui rejaillit doublement,...

Gwelan

Ok, je ne le conteste pas mais c'est là qu'on joue sur les mots, parce que ma voisine aussi est très influente, et elle n'est pas présidente non...

Il y a la bible et puis les livres d'histoire. Tout le monde peut vérifier que tout pouvoir politique s'est éteint avec le royaume de Judas....

Ce qui est bien sûr absolument faux puisque qu'en parlant de pouvoir, politique tout du moins déjà, les premières traces d'une royauté attestée...

Pao Pereira

Ça ne change surtout pas le fait que ça fait plus de 2700 ans qu'il ne s'y trouve aucun pouvoir juif. Il est là, le point du clou car la région...

Science et Technologie

Harry Potter, Hunger Games : ChatGPT s'exerce en pillant des livres protégés

Commentaires des Lecteurs

Dernières Nouvelles

Photo du Jour

Citation du Jour

Commentaires Récents

Quantum Quirk