Mistral AI dans la tempête : 70 To de livres piratés pour entraîner une IA ? Ce que l’enquête révèle vraiment

Une licorne française, 70 To de livres et une affaire qui sent le papier… brûlé

Mistral AI, la pépite française de l’IA générative valorisée autour de 12 milliards d’euros, se retrouve au cœur d’une polémique qui n’a rien d’un simple drama tech sur X. Une investigation publiée par Mediapart relance un sujet explosif : l’usage de données potentiellement piratées pour entraîner des modèles d’intelligence artificielle.

Le point de départ ? Des documents judiciaires apparus dans le cadre d’une procédure américaine très suivie, Kadrey v. Meta Platforms Inc., où des auteurs attaquent Meta autour des données d’entraînement de ses modèles. Et au milieu des échanges internes cités, un nom ressort : Guillaume Lample, alors chercheur chez Meta en 2022, aujourd’hui directeur scientifique chez Mistral AI.

L’accusation est lourde : un téléchargement massif d’environ 70 téraoctets de livres depuis Library Genesis, autrement dit LibGen, une bibliothèque pirate bien connue. 70 To, c’est la taille d’une bibliothèque qui ne rentre pas dans une étagère IKEA, ni même dans un salon.

D’où vient l’accusation contre Mistral AI, et pourquoi Meta est dans l’histoire

Le cœur de l’affaire ne part pas d’un communiqué de presse, mais de pièces de justice et de traces internes rendues publiques. L’enquête s’appuie sur des milliers de pages issues de la procédure contre Meta, qui fait partie d’un ensemble de plus de 70 actions visant des acteurs majeurs de l’IA.

Selon les éléments cités, le téléchargement de ces données aurait été orchestré pendant la période Meta, à l’automne 2022, moment où le géant américain cherchait à rattraper son retard après l’explosion de ChatGPT. Dans les échanges internes rapportés, une chercheuse aurait posé une limite claire, du genre ligne rouge fluo : utiliser des ouvrages piratés.

La réponse attribuée à Guillaume Lample résume l’ambiance “course à l’armement” qui régnait alors dans la recherche IA : tout le monde le ferait, donc Meta devrait le faire aussi. Techniquement, l’opération se serait faite via Torrent, et des journaux de téléchargement cités viendraient étayer ce rôle.

Ce point est important : l’accusation initiale vise des faits chez Meta. Mais comme Guillaume Lample est aujourd’hui un cadre central chez Mistral AI, la question devient immédiate : qu’en est-il des données d’entraînement des modèles Mistral ?

LibGen, Books3, Anna’s Archive : ces “bibliothèques” qui hantent l’IA générative

Pour comprendre l’ampleur du sujet, il faut comprendre les sources évoquées :

  • Library Genesis (LibGen) : plateforme pirate qui recense des millions de livres et articles scientifiques, souvent sous droits d’auteur.
  • Books3 : base de données largement citée dans les débats IA, contenant de nombreux ouvrages protégés.
  • Anna’s Archive : méta-agrégateur qui compile plusieurs sources (dont LibGen, Sci-Hub, Z-Library) et dont le volume serait colossal, dépassant le millier de téraoctets.

Pourquoi ces noms reviennent-ils sans cesse ? Parce que les grands modèles de langage ont un appétit de ogre. Pour produire un texte fluide, répondre sur des sujets variés, écrire du code, résumer, traduire, ils doivent être nourris avec des quantités énormes de textes.

Et c’est là que l’industrie s’est souvent retrouvée face à un dilemme : attendre des années pour obtenir des licences propres, ou entraîner vite avec ce qui existe déjà sur Internet, y compris des contenus dont la légalité est disputée.

Meta n’aurait pas utilisé ces 70 To pour LLaMA 1, mais Books3 était déjà là

Selon les informations rapportées, Meta aurait finalement choisi de ne pas utiliser ces données LibGen pour la première version de LLaMA (publiée en février 2023). Pourtant, le modèle se serait appuyé sur Books3, qui contient des œuvres protégées.

Autrement dit, même si les “70 To” n’ont pas été injectés tels quels dans LLaMA 1, la question des données sous copyright reste entière. Ce détail est crucial, parce qu’il montre un paysage plus large : l’IA n’a pas attendu Mistral AI pour se frotter au droit d’auteur, et le problème dépasse une seule entreprise.

L’enquête mentionne aussi que le piratage se serait poursuivi chez Meta après le départ de Guillaume Lample, avec d’autres téléchargements massifs en 2023 puis 2024 via Anna’s Archive. Ce qui renforce l’idée d’une pratique plus systémique qu’un acte isolé.

Pourquoi Mistral AI est maintenant sous les projecteurs

Mistral AI n’est pas accusée, dans ces éléments, d’avoir elle-même piraté LibGen. Mais l’enquête soulève une question qui fait mal : d’où viennent les données d’entraînement de Mistral 7B, le premier modèle phare de la startup sorti en septembre 2023 ?

Un email interne de Meta daté de décembre 2023, cité par Mediapart, indiquerait que l’équipe de recherche “sait, par le bouche-à-oreille”, que certains acteurs, dont OpenAI et Mistral, utiliseraient LibGen.

Le “bouche-à-oreille” n’est pas une preuve juridique. Mais dans un secteur où l’opacité a longtemps été la norme, ce type de phrase suffit à déclencher :

  • des articles,
  • des questions d’investisseurs,
  • des demandes de transparence,
  • et parfois des actions en justice.

Transparence sur les données d’entraînement : l’AI Act change la donne

Le timing est particulièrement mauvais pour les acteurs de l’IA générative en Europe, parce que les règles évoluent vite. L’article 53 du règlement européen sur l’intelligence artificielle (AI Act), entré en vigueur le 2 août 2025, impose aux fournisseurs de modèles d’IA à usage général de publier un résumé suffisamment détaillé des données d’entraînement.

Cette exigence ne règle pas tout, mais elle change l’équation :

  • avant, il fallait deviner,
  • maintenant, il faudra documenter.

D’après les informations de la source, Mistral AI n’aurait pas encore publié ce document à ce jour. Et évidemment, plus on tarde, plus les soupçons s’installent. Dans la tech, le silence est rarement perçu comme une stratégie de communication brillante.

“Données de haute qualité” et licences : ce que Mistral AI met en avant

Depuis sa création, Mistral AI communique sur l’usage de données “de haute qualité” et sur des négociations de licences. Et il y a des éléments qui vont dans ce sens, notamment :

  • un partenariat avec l’AFP début 2025,
  • une participation à des projets donnant accès à des collections (INA, BNF) via des initiatives lancées depuis 2024.

Problème : ces accords sont postérieurs au lancement de Mistral 7B. Ils ne répondent donc pas directement à la question historique : quelles sources ont servi au début, quand la startup devait prouver très vite qu’elle savait entraîner des modèles compétitifs ?

Et c’est souvent là que la pression est la plus forte : au tout début, quand il faut aller vite, lever des fonds, sortir un modèle, créer un “moment” médiatique.

Le vrai sujet : l’IA peut-elle progresser sans marcher sur les droits d’auteur ?

Au-delà de Mistral AI, cette affaire remet une pièce dans une machine déjà brûlante : la relation entre IA générative, droit d’auteur, et innovation.

Les arguments “pro-IA” qu’on entend le plus souvent :

  • l’entraînement serait une forme d’analyse statistique, pas une reproduction,
  • les modèles ne stockeraient pas les œuvres comme une bibliothèque,
  • l’impact serait comparable à un humain qui lit pour apprendre.

Les arguments “pro-auteurs” :

  • sans ces œuvres, les modèles seraient moins bons,
  • l’exploitation économique est réelle et massive,
  • la frontière entre apprentissage et extraction est trop floue,
  • certains contenus peuvent ressortir de manière problématique.

Et au milieu, un fait très concret : l’industrie a bâti des produits extrêmement rentables sur des corpus dont la légalité est contestée, parfois même inconnue. Ce n’est plus juste un débat philosophique, c’est un risque business.

Quels risques pour Mistral AI (et pour l’écosystème européen)

Si la polémique prend de l’ampleur, les risques sont multiples :

Risque juridique

Des ayants droit peuvent viser les acteurs de l’IA, ou demander des compensations, ou exiger des retraits de datasets. Même si l’affaire initiale concerne Meta, les retombées peuvent toucher tout l’écosystème.

Risque réputationnel

Mistral AI est souvent présentée comme l’alternative européenne crédible face aux géants américains. Une affaire de données piratées, même indirecte, abîme ce narratif.

Risque produit

Si demain les règles imposent des datasets plus “propres”, l’entraînement devient plus cher, plus lent, et potentiellement moins performant à court terme. L’IA “éthique” n’est pas gratuite, un peu comme le café de spécialité : ça pique, mais on s’y habitue.

Risque réglementaire

Avec l’AI Act, la transparence devient un sujet non négociable en Europe. Et plus les modèles seront puissants, plus ils seront observés.

Ce que cette affaire dit de la guerre de l’IA : vitesse contre conformité

Le passage le plus révélateur, c’est cette logique attribuée à un chercheur : “tout le monde le fait”. Dans la Silicon Valley, c’est souvent dit avec un haussement d’épaules. En Europe, c’est généralement suivi par trois réunions, deux juristes et un tableau Excel sur les risques.

Mais la pression concurrentielle est mondiale :

  • OpenAI avance,
  • Google accélère,
  • les modèles open weight se multiplient,
  • et les startups doivent prouver qu’elles existent avant d’être avalées ou oubliées.

Dans ce contexte, la tentation de raccourcis est énorme, surtout quand la ressource clé est… du texte, partout, en masse, et très souvent protégé.

À surveiller dans les prochaines semaines

Pour comprendre si cette affaire devient un vrai tournant ou un épisode de plus, trois signaux seront déterminants :

  1. Réponse officielle de Mistral AI : clarification, démenti, ou publication d’éléments sur les datasets.
  2. Publication du résumé de données d’entraînement exigé par l’AI Act : le niveau de détail comptera autant que l’existence du document.
  3. Évolution des procédures aux États-Unis : les décisions et accords influencent souvent les pratiques globales.

Une chose est sûre : l’époque où l’on pouvait entraîner un modèle dans un coin avec un dataset “trouvé” et espérer que personne ne pose de questions est en train de se terminer.

Et c’est probablement une bonne nouvelle pour les auteurs, pour les entreprises sérieuses… et pour tous ceux qui préfèrent que les licornes restent des créatures mythiques, pas des personnages de faits divers numériques.

Source : Mistral AI dans la tempête : 70 To de livres piratés pour entraîner une IA ? Ce que l’enquête révèle vraiment