Des chercheurs ont découvert que les versions de ChatGPT avaient été entraînées sur des livres protégés par des droits d'auteur. Les résultats publiés démontrent clairement le recours à des œuvres protégées pour améliorer les capacités de l'IA. De quoi ouvrir grand les portes d'une plainte pour violation du copyright...
fghj
Les chercheurs de l'Université Berkeley (Californie) avancent, preuve à l'appui, que ChatGPT et son successeur GPT-4 ont mémorisé un grand nombre de pages de livres sous copyright. Les auteurs, dont Kent Chang, Mackenzie Cramer, Sandeep Soni et David Bamman, posent ainsi la question de la légalité des modèles de langage, dès lors qu'ils relèvent d'œuvres sous droit.

Les deux intelligences artificielles ont été développées par la société privée OpenAI et formées sur d'énormes quantités de données, mais on ne sait pas exactement quels textes servent à construire les IA.

572 livres clairement identifiés

Le titre de l'article relève du poème en soi : Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 (voir ici). Les conclusions, elles, mettront en rage les services juridiques :
« Nous constatons que les modèles OpenAI ont mémorisé une large collection de documents protégés par le droit d'auteur. »
Et la suite est à l'aune :
« Le niveau d'utilisation est corrélé à la fréquence à laquelle des passages de ces livres apparaissent sur le Web. »
En somme, plus un titre est cité sur la toile, plus les robots s'y intéressent. Et le prennent comme référence.

Science-fiction, fantasy : les goûts de l'IA

Le contrôle et la vérification des sources auxquelles puisent les IA relèvent du casse-tête. Les corpus, totalement inconnus, compliquent en effet toute analyse quantitative et qualitative. Pour y répondre, les chercheurs ont conduit un test type « name cloze » : la solution passe en revue le nombre d'occurrences de termes. Elle aboutit à l'identification des passages utilisés par la machine.

Conclusion : les romans de science-fiction et de fantasy comptent parmi les premières sources : les titres Harry Potter, la saga Hunger Games, Dune, ou encore Le Trône de fer... On y découvre également des œuvres du domaine public, comme 1984 d'Orwell ou Le Seigneur des Anneaux. Sur ce point, aucune difficulté. La liste complète des titres repérés est d'ailleurs disponible à cette adresse : sur les 572 titres ont été recensés, plus de la moitié est parue après 1960.

IA et transparence...

Dans leurs préconisations, les universitaires préconisent de recourir plus systématiquement à des données et des ouvrages du domaine public. Une transparence qui aurait aussi pour conséquence d'épargner toute contrefaçon.

Attendu que les laboratoires de développement d'IA ne divulguent aucune des sources servant à leur travail d'enrichissement des machines, les risques juridiques apparaissent désormais clairement.

Des efforts à fournir

« La curation des données est encore très immature quand on touche à l'apprentissage automatique », résume Margaret Mitchell, chercheuse en IA, auprès du Register.

Toutefois, l'étude se concentre moins sur les implications en matière de droit d'auteur que sur les corpus — et donc la nature même des œuvres servant au perfectionnement des IA. Pour autant, les répercussions se devinent aisément, tant que les outils puiseront dans les œuvres protégées.

D'ailleurs, un précédent existe : le langage naturel, développé par un certain moteur de recherche, Google, s'appuyait sur la numérisation des millions de bouquins. C'était là une des grandes finalités de Google Books, aujourd'hui converti en librairie en ligne. Or, sur l'ensemble des documents scannés et reproduits, le nombre de livres sous droit s'avérait digne d'un procès.

Certes perdu par les plaignants... mais tout de même.