Une panne sèche qui fait trembler l’IA : que se passe-t-il vraiment ?
L’intelligence artificielle, encore auréolée il y a peu d’un parfum de progrès fulgurant, se retrouve désormais face à un mur inédit : la pénurie de données d’entraînement de qualité. Oui, vous avez bien lu : alors que l’on parle sans arrêt d’un Internet saturé de contenus, d’un déluge quotidien de vidéos de chats et de mails sans fin, les géants du secteur arrivent à court de carburant pour nourrir leurs modèles. D’après Neema Raphael, responsable des données chez Goldman Sachs, le Web ouvert ne suffirait presque plus à propulser l’IA vers de nouveaux sommets. Ambiance !
Mais alors, sommes-nous condamnés à une IA qui bégaye, désinforme, ou se tourne vers des générations de clones de contenus médiocres ? Ou les entreprises détiennent-elles, tapis dans leurs serveurs poussiéreux, un trésor inexploré qui pourrait relancer la machine ? Spoiler : la réponse est plus nuancée qu’une simple partie de Tetris.
Quand l’IA picore trop sur Internet et finit par ronger ses propres bases
À la base, une IA performante a besoin d’être formée sur des montagnes de données humaines : textes, images, vidéos, conversations des forums… (petit clin d’œil à ceux qui fréquentent les commentaires de sites tech). Mais à force de grignoter tout ce qui traîne sur le Net, les acteurs majeurs comme OpenAI, Google ou DeepMind ont quasiment vidé la cave. Résultat ? Les ingénieurs doivent se tourner vers des solutions alternatives, parfois trop créatives.
L’exemple le plus… disons, « astucieux » reste celui de DeepSeek, une entreprise chinoise qui a développé des modèles puissants en « distillant » les connaissances d’autres IA, notamment via des appels API à OpenAI. Autrement dit : un remix musical, mais pour l’intelligence artificielle. Si OpenAI tousse un peu devant ce procédé (personne n’apprécie vraiment que son travail serve de fondement au succès des autres), cette méthode traduit surtout une vraie impasse dans l’accès à de nouvelles sources authentiques.
La tentation des données synthétiques : solution miracle ou poison lent ?
Faute de mieux, l’industrie lorgne aussi du côté des données synthétiques, c’est-à-dire des contenus entièrement générés par des machines, pour entraîner… d’autres machines. Sur le papier, c’est comme avoir une source d’énergie illimitée ! Dans la réalité, c’est un jeu dangereux : si l’IA ne fait que s’auto-alimenter, on risque une « consanguinité » des modèles.
Les conséquences ? Les performances stagnent, les biais s’accentuent, la créativité s’évapore et des erreurs se multiplient, génération après génération. Dans la version extrême, on parle même d’effondrement du modèle, l’IA finit par tourner en rond, voire régresser. Sympa comme avenir, non ?
Des chercheurs d’Oxford et de Cambridge ont déjà tiré la sonnette d’alarme dans la revue Nature en 2024. Selon eux, l’entraînement sur ces « copiés-collés » d’intelligence artificielle crée des défauts irréversibles, risque de baisser la qualité des prédictions, et met en danger la robustesse comme l’équité des IA.
Bref, si l’IA continue à s’auto-recopier, on n’aura bientôt plus affaire qu’à une armée de perroquets numériques… Et croyez-le, personne ne veut d’un assistant virtuel qui confond la météo et la recette du cake aux olives.
La mine d’or cachée dans les serveurs d’entreprise
Heureusement, Neema Raphael ne céderait pas à la panique. Pour lui, le salut ne se trouve plus dans le Web public, transformé en désert aride, mais dans les vastes stocks d’informations propriétaires détenus en interne par les entreprises. Voilà le vrai eldorado ! Imaginez la quantité de données accumulées dans les intranets, les échanges clients, les historiques de transactions ou les flux de production : ce sont autant de matières premières inédites, vierges de toute exploitation systématique pour l’IA.
D’après Goldman Sachs, ces bases de données internes, derrière leurs pare-feu bien hermétiques, pourraient apporter une valeur commerciale nettement supérieure à tout ce qu’une IA a pu ingurgiter sur Internet. C’est un peu comme si, après avoir vidé tous les supermarchés du monde, on se rappelait enfin qu’on avait un potager d’émeraudes dans le jardin.
Mais attention ! Dégager de la valeur de ce patrimoine caché, ce n’est pas juste ouvrir la cave et charger les cartons dans la machine. Encore faut-il savoir nettoyer les doublons, comprendre le contexte métier, catégoriser l’information, puis la rendre exploitable avec les bons outils. Oui, la data science, c’est beaucoup de sueur…
Autre bémol noté par notre expert : investir des milliards dans l’IA ne garantit pas de résultats magiques. Les dérapages de certains agents autonomes sont là pour rappeler que, sans supervision humaine sérieuse, même la meilleure IA peut commettre des bêtises en chaîne.
Modèles de monde : l’autre horizon pour sortir de l’impasse ?
En parallèle de la ruée sur les données d’entreprise, un nouveau paradigme fait surface : les « modèles de monde ». Là où les LLM classiques comme ChatGPT sont formés principalement sur du texte, ces outils de nouvelle génération tentent de comprendre et d’anticiper la dynamique du monde réel.
L’idée ? Se nourrir de données visuelles, physiques, de vidéos, et de signaux robotiques pour simuler ou prédire l’évolution d’un environnement. Vous imaginez une IA capable non seulement d’écrire un roman, mais aussi de comprendre comment une balle rebondit, comment une voiture se déplace sur route mouillée, ou comment un robot doit s’ajuster selon la météo. Les applications sont vastes, des véhicules autonomes à la robotique industrielle, en passant par la simulation scientifique et le jeu vidéo.
Yann LeCun, le parrain non-officiel du deep learning, est parmi les champions de ce virage vers les modèles de monde, convaincu que la prochaine révolution de l’IA ne viendra pas simplement de plus de données textuelles… mais d’une meilleure compréhension du contexte !
Cependant, cette transition ne règle pas tout : pour exceller, les modèles de monde réclament aussi des datasets de haute qualité, réalistes, parfaitement annotés. Bref, des perles rares et souvent chères. On n’échappe pas à la chasse aux bons ingrédients !
Les entreprises vont-elles sortir l’IA du fossé ?
Si vous aimez les westerns (ou les jeux de société), vous voyez la situation : l’IA a grillé ses dernières cartes sur le Web, elle s’est essayée à l’auto-duplication avec un succès discutable, et elle lorgne maintenant vers les coffres-forts de data des entreprises.
C’est une aubaine pour tous ceux qui ont accumulé des teraoctets d’informations dans l’ombre… à condition de savoir les valoriser intelligemment, sans tomber dans le piège du quantity over quality. Les prochains grands modèles, capables d’aider efficacement dans le business, le médical ou le support client, viendront probablement de la fusion subtile entre savoir-faire métier, données inédites, et IA supervisée par des humains aguerris.
Et les agents autonomes super puissants ? Ils font encore trop d’erreurs pour que l’on puisse se passer de notre bon vieux sens critique. « Confiance, mais vérifie », reste le credo… IA ou pas !
L’avenir de l’IA : plus malin, mais affamé de bonnes données
Ce n’est pas la fin du grand voyage de l’IA, mais une étape cruciale : pour continuer de progresser, elle devra apprendre à faire feu de tout bois, à porter un regard plus exigeant sur la qualité et la provenance de l’information, et à s’ouvrir à des sources inédites. Beaucoup d’attentes car l’histoire regorge d’annonces de révolutions qui prennent plus de temps que prévu.
En attendant, préparez-vous : la prochaine fois que vous jetterez un coup d’œil à votre base de données clients, ou à vos anciennes fiches de stocks, dites-vous que ces petits trésors endormis valent peut-être de l’or… pour l’avenir de l’IA ! Qui sait : dans quinze ans, votre vieux CRM sera peut-être le Graal des modèles de demain.
Vous voulez transformer votre business grâce à l’automatisation et l’IA ? Décuplez la puissance de vos données internes en testant des plateformes d’intégration comme Make.com, vos données vous diront merci.
Sources :
- L’IA est déjà à court de données d’entraînement et les mines d’informations inexploitées des entreprises pourraient être le dernier espoir
- Podcast Exchanges de Goldman Sachs
- Nature, « The Curse of Recursion: Training on Model-Generated Data » (2024)
