C’est une bombe qui explose au pire moment pour la licorne française. Guillaume Lample, cofondateur et Chief Scientist de Mistral AI, serait directement impliqué dans le scandale du piratage massif de livres par Meta. Selon des documents judiciaires, il aurait joué un rôle central dans le téléchargement de millions d’ouvrages piratés pour entraîner les modèles LLaMA.
81,7 téraoctets de livres piratés
Suivez LJG sur Google
Ajoutez LJG à vos sources préférées pour voir nos articles en priorité dans "À la une".
L’affaire éclate dans le cadre du procès Kadrey v. Meta, qui oppose un groupe d’auteurs américains — dont Sarah Silverman, Ta-Nehisi Coates et Richard Kadrey — au géant de Mark Zuckerberg. Les plaignants accusent Meta d’avoir utilisé sans autorisation des millions d’œuvres protégées par le droit d’auteur pour entraîner ses modèles d’intelligence artificielle.
Les documents internes révélés par la justice américaine sont accablants. Meta aurait téléchargé plus de 81,7 téraoctets de livres via des plateformes pirates bien connues : Library Genesis (LibGen), Z-Library, Anna’s Archive, Bibliotik. Plus de 7,5 millions de livres et 81 millions d’articles scientifiques auraient été aspirés illégalement.
Et au cœur de cette opération se trouverait Guillaume Lample, alors chercheur chez Meta et l’un des créateurs du modèle LLaMA.
« Payer, c’est trop cher. Attendre, c’est trop long »
Les échanges internes de Meta, dévoilés par The Atlantic, révèlent la logique qui aurait présidé à cette décision.
Les ingénieurs avaient besoin d’une quantité massive d’ouvrages académiques et littéraires pour entraîner LLaMA et concurrencer ChatGPT et Gemini. Les solutions légales ? Trop coûteuses. Un cadre aurait qualifié les accords de licence de « déraisonnablement chers ». Trop lentes aussi : « plus de quatre semaines pour livrer les données », se serait plaint un autre.
Certains dirigeants auraient même reconnu vouloir éviter délibérément d’acheter des licences. Leur raisonnement : obtenir une licence, même pour un seul livre, compromettrait la défense juridique basée sur le « fair use » (usage équitable) en cas de procès.
La décision finale d’utiliser LibGen aurait été approuvée par « MZ » — initiales qui désigneraient Mark Zuckerberg lui-même, selon les documents judiciaires.
Guillaume Lample : du piratage présumé chez Meta à la direction de Mistral
Guillaume Lample n’est pas n’importe qui dans l’écosystème IA. Avant de cofonder Mistral AI en avril 2023 avec Arthur Mensch et Timothée Lacroix, il était chercheur chez Meta et l’un des architectes du modèle LLaMA, le grand modèle de langage open source qui a permis à Meta de rivaliser avec OpenAI.
Les documents judiciaires de l’affaire Kadrey v. Meta impliqueraient directement Lample dans le téléchargement des contenus piratés. Le juge a autorisé des recherches supplémentaires dans les fichiers et serveurs Meta associés à Lample. L’activité en question remonterait à 2022, avant son départ pour fonder Mistral.
La question qui se pose désormais : qu’a fait Lample après avoir quitté Meta ? A-t-il reproduit les mêmes pratiques chez Mistral ? Les avocats des auteurs américains s’interrogent. Dans une interview à Stanford, Lample aurait déclaré que « les LLM sont essentiellement entraînés sur les mêmes datasets ». Une phrase qui prend aujourd’hui une résonance particulière.
Un schéma récurrent dans l’industrie IA
Guillaume Lample n’est pas le premier chercheur en IA à être pris dans ce type de controverse impliquant deux entreprises différentes.
Le cas le plus célèbre est celui de Benjamin Mann, cofondateur d’Anthropic (créateur de Claude). Mann aurait téléchargé des contenus de Library Genesis d’abord chez OpenAI, puis à nouveau après avoir rejoint Anthropic. Cette double exposition a conduit Anthropic à conclure un accord de 1,5 milliard de dollars avec les auteurs plaignants en septembre 2025.
Le même chercheur, les mêmes pratiques présumées, potentiellement la même responsabilité dans deux entreprises distinctes : c’est ce que les juristes appellent un « double whammy » (double coup). Si un tribunal établit la responsabilité dans un cas, l’autre tribunal pourrait adopter la même approche.
Pour Mistral AI, le risque est réel. Si les pratiques de Lample chez Meta ont été reproduites chez Mistral, la startup française pourrait faire face à des poursuites similaires.
Mistral AI : le champion français dans la tourmente
Cette révélation tombe au pire moment pour Mistral AI.
La startup, valorisée 11,7 milliards d’euros après sa levée de fonds de septembre 2025, est présentée comme le champion européen de l’IA, l’alternative souveraine face aux géants américains et chinois. Elle vient de signer des partenariats majeurs avec HSBC, CMA CGM, l’AFP. ASML, le géant néerlandais des semi-conducteurs, est devenu son principal actionnaire.
Au Sénat français, une proposition de loi transpartisane sur le respect des droits d’auteur par les IA a été présentée le 17 décembre 2025. Les sénateurs Laure Darcos, Agnès Evren et Pierre Ouzoulias ont explicitement mentionné Mistral AI, appelant l’entreprise à devenir « l’étendard d’une troisième voie européenne, fondée sur le respect de la propriété intellectuelle ».
« Ils sont tellement dans la tech qu’avoir à discuter avec des syndicats, avec des corporations, c’est très compliqué pour eux », a observé Laure Darcos à propos de ses échanges avec Mistral. La sénatrice a reconnu que l’entreprise « ne connaissait pas les sociétés de gestion collective ou les différents secteurs culturels ».
Le message des sénateurs est clair : oui au soutien de Mistral, mais à condition que l’entreprise « accepte les règles du jeu ». L’objectif affiché : passer « d’une IA pirate à une IA éthique ».
Des livres français dans le pillage présumé
L’affaire ne concerne pas que des auteurs américains. En mars 2025, trois associations françaises — le Syndicat national de l’édition (SNE), la Société des gens de lettres (SGDL) et le Syndicat national des auteurs et des compositeurs (SNAC) — ont assigné Meta en justice devant le tribunal de Paris pour « contrefaçon » et « parasitisme économique ».
Elles accusent Meta d’avoir utilisé sans autorisation près de 200 000 livres protégés par le droit d’auteur français pour entraîner ses modèles. The Atlantic a publié un outil permettant de vérifier si ses œuvres figurent dans la base de données LibGen utilisée par Meta. Des dizaines d’auteurs français y apparaissent : Michel Tremblay, Kev Lambert, Dany Laferrière, Anaïs Barbeau-Lavalette, et bien d’autres.
« Voir mes magnifiques livres ainsi volés sans ma permission et sans un centime de compensation, puis livrés au monstre de l’IA, c’est comme si je m’étais fait agresser », a déclaré le romancier britannique AJ West lors d’une manifestation devant les bureaux de Meta à Londres.
Meta se défend : « Ces livres n’ont pas de valeur »
Face aux accusations, Meta a adopté une défense aussi cynique que provocante.
L’entreprise reconnaît avoir utilisé les données de LibGen, mais affirme qu’il s’agissait d’une « utilisation équitable » (fair use) du matériel, donc légale. Plus choquant encore : Meta soutient que les livres des plaignants « n’ont pas de valeur économique ».
« Pour qu’il y ait un marché, il faut qu’il y ait quelque chose de valeur à échanger », aurait déclaré l’entreprise. « Mais aucune des œuvres des auteurs n’a de valeur économique, individuellement, en tant que données d’entraînement. »
Une déclaration qui a fait bondir les auteurs et leurs avocats. Comment une entreprise valorisée à plus de mille milliards de dollars peut-elle prétendre que les œuvres qu’elle a aspirées pour construire ses modèles d’IA n’ont « pas de valeur » ?
Ce que ça change pour Mistral
Pour Mistral AI, les implications sont multiples.
D’abord, une question de réputation. L’entreprise qui se présente comme l’alternative européenne éthique aux géants américains voit l’un de ses cofondateurs directement mis en cause dans le plus grand scandale de piratage de l’industrie IA. Le contraste est brutal.
Ensuite, une question juridique. Si les avocats des auteurs décident de s’intéresser aux pratiques de Mistral — et ils ont désormais une bonne raison de le faire — la startup pourrait se retrouver dans le collimateur. La déclaration attribuée à Lample sur les « mêmes datasets » utilisés par tous les LLM pourrait devenir une pièce à conviction.
Enfin, une question politique. Au moment où l’Europe tente de construire un cadre réglementaire pour l’IA (AI Act) qui protège les créateurs, voir le champion français associé à des accusations de piratage massif envoie un signal désastreux.
Contactés, ni Mistral AI ni Guillaume Lample n’ont répondu à nos sollicitations.
Sources : Mediapart, The Atlantic, Livres Hebdo

Je suis Ethan, journaliste spécialisé en intelligence artificielle et nouvelles technologies. Je couvre l’actualité de l’IA agentique, des grands modèles de langage et des outils qui transforment nos usages numériques. Mon objectif : rendre accessibles les avancées technologiques les plus complexes, avec rigueur et sans jargon inutile.