IA en roue libre : pourquoi ChatGPT, Gemini et Claude se mettent à halluciner quand la conversation s’allonge

Quand votre chatbot commence à improviser comme un stagiaire en réunion

Vous l’avez forcément vécu. Au début, ChatGPT, Gemini ou Claude répondent avec une précision presque insolente. Vous enchaînez deux ou trois questions, tout roule. Puis la discussion s’étire, vous ajoutez des détails, vous changez un peu l’angle… et là, l’IA commence à raconter n’importe quoi avec l’assurance d’un expert autoproclamé.

Ce n’est pas juste une impression d’utilisateur fatigué. Une étude menée par Microsoft Research et Salesforce, basée sur l’analyse de plus de 200 000 conversations, met des chiffres très clairs sur ce phénomène : plus la discussion dure, plus la fiabilité chute, et plus les hallucinations augmentent.

Dans cet article, on va décortiquer le pourquoi du comment, ce que les chercheurs ont mesuré, et surtout comment éviter que votre assistant IA ne se transforme en générateur de fanfiction technique.

Les chiffres qui piquent : la performance s’effondre dès que ça discute vraiment

Les chercheurs ont testé plusieurs modèles de pointe : GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, DeepSeek R1, OpenAI o3, Llama 4. Et le constat est brutal.

Sur une question unique, les meilleurs modèles comme GPT-4.1 et Gemini 2.5 Pro atteignent environ 90 % de réussite. Autrement dit, sur une demande simple et bien cadrée, ils sont excellents.

Mais dès qu’on passe à une conversation avec plusieurs échanges, le taux de réussite tombe à environ 65 %. Oui, une baisse de 25 points, juste parce qu’on a osé discuter au lieu de balancer une requête unique et de disparaître dans la nature.

Et ce n’est pas uniquement une baisse progressive. L’étude observe une dégradation très tôt, parfois dès le deuxième échange. Pas besoin d’un roman en 40 messages pour que l’IA commence à glisser.

Le vrai problème n’est pas l’intelligence, c’est l’instabilité

Un point important ressort : la compétence pure ne s’effondre pas totalement. Les chercheurs estiment qu’elle ne baisse que d’environ 15 %.

Le souci majeur, c’est que l’IA devient imprévisible. Sur la même question, formulée différemment, elle peut donner une réponse parfaite ou complètement fausse. Résultat : même si le modèle “sait” souvent, vous ne pouvez plus lui faire confiance au moment où vous en avez le plus besoin.

L’étude parle même d’une explosion du manque de fiabilité de 112 % quand les conversations deviennent plus complexes. En clair, plus vous essayez d’être nuancé et précis, plus vous augmentez le risque de réponse bancale. Ironique, non ?

“Hallucinations” : ce mot poli pour dire “ça invente avec aplomb”

Dans le jargon, on appelle ça une hallucination : le modèle génère une réponse plausible, bien formulée, mais fausse, non vérifiable, ou hors sujet.

Ce qui rend le phénomène dangereux, c’est le style. Les IA modernes ne se contentent pas de dire une bêtise, elles la livrent avec un ton confiant, des listes, des étapes, parfois même des références qui ressemblent à des sources. C’est le combo parfait pour tromper un humain pressé.

Et comme les usages se multiplient (rédaction, code, synthèse, aide à la décision), l’hallucination en conversation longue n’est pas juste un bug amusant. C’est une fragilité structurelle.

Pourquoi les longues sessions font dérailler ChatGPT, Gemini et Claude ?

L’étude met en avant plusieurs comportements typiques qui expliquent pourquoi la conversation longue est un terrain miné.

1) L’IA répond trop tôt, avant d’avoir “vraiment compris”

Premier comportement identifié : les modèles ont tendance à anticiper.

Ils essayent de deviner la demande finale et commencent à répondre avant même que vous ayez fini d’expliquer le contexte. Résultat, la réponse part sur une hypothèse… et si cette hypothèse est mauvaise, tout ce qui suit est contaminé.

C’est un peu comme si vous disiez : “Je veux organiser un voyage mais…” et que votre ami vous coupe pour vous réserver un billet au hasard. Sauf que l’ami en question imprime un itinéraire de 12 pages et refuse ensuite d’admettre qu’il s’est emballé.

2) L’effet “première réponse” : quand l’IA s’accroche à son erreur

Deuxième point très parlant : les modèles utilisent souvent leur première réponse comme base pour toutes les suivantes.

Même si votre sujet change, même si vous corrigez, même si la première réponse était fausse, l’IA peut s’accrocher à cette fondation initiale. Elle continue à construire dessus, en ajoutant des détails, des justifications, des étapes… et empile les incohérences.

C’est un biais de cohérence interne : au lieu de recalculer proprement, elle “brode” pour rester alignée avec ce qu’elle a déjà dit. D’où ces conversations où vous avez l’impression que le chatbot défend un mensonge avec une énergie disproportionnée.

3) Plus ça écrit, plus ça hallucine

L’étude constate aussi que les réponses s’allongent avec la durée de la conversation, de 20 % à 300 %.

Ça a l’air anodin, mais c’est un indicateur clé : plus le modèle produit de texte, plus il a d’occasions d’insérer une affirmation douteuse.

Une réponse courte et précise limite les risques. Une réponse longue, pleine de formulations générales, de conseils et de détails… augmente la surface d’erreur. Et comme l’IA est optimisée pour être utile et fluide, elle a tendance à remplir les blancs au lieu de s’arrêter.

4) Aucun modèle n’est épargné

Ce point est important pour éviter le faux débat “mon chatbot est meilleur que le tien”.

Le phénomène touche tout le monde : des modèles très puissants comme Gemini 2.5 Pro, aux modèles open source plus légers. Les tailles et les architectures changent, mais la fragilité en conversation longue reste.

Autrement dit, ce n’est pas juste une question de “mettre plus de paramètres” ou “acheter plus de GPU”. Il y a un problème plus profond dans la manière dont ces systèmes gèrent le contexte, la continuité et la vérification.

Ce que ça implique pour les usages en entreprise

Cette étude arrive dans un contexte où les géants de la tech investissent des centaines de milliards dans l’IA. Microsoft, Google, OpenAI, Meta… tout le monde pousse des copilotes, des assistants, des agents.

Sauf que le produit réellement utilisé au quotidien n’est pas une IA qui répond à une question isolée. C’est une IA intégrée dans des workflows, des tickets support, des échanges itératifs, des documents vivants.

Et si la fiabilité chute dès que la conversation dépasse quelques tours, ça devient un risque opérationnel :

  • Documentation : une procédure peut dériver au fil des clarifications.
  • Code : un correctif peut introduire un bug parce que l’IA s’est basée sur une hypothèse posée 10 messages plus tôt.
  • Décision : une synthèse peut inclure des éléments inventés parce que le modèle a “comblé” une zone floue.

L’article source cite aussi un exemple marquant : un professeur, Marcel Bucher, explique avoir perdu deux ans de travaux suite à une manipulation impliquant ChatGPT. Sans entrer dans le sensationnalisme, ça rappelle un principe simple : une IA conversationnelle n’est pas un système de sauvegarde, ni un garant de vérité.

Comment éviter les hallucinations quand on discute longtemps avec une IA

La bonne nouvelle, c’est qu’on peut réduire fortement les dégâts avec quelques habitudes. Pas besoin de devenir prompt engineer certifié niveau ceinture noire.

1) Préférez une demande unique, complète, bien cadrée

Le conseil le plus efficace est aussi le plus frustrant : au lieu de discuter, faites une seule requête structurée.

  • Objectif
  • Contexte
  • Contraintes
  • Format attendu
  • Exemples si possible

Plus votre demande est “autonome”, moins vous dépendez d’une mémoire de conversation qui se dégrade.

2) Faites résumer et valider le contexte régulièrement

Si vous devez enchaîner, forcez des checkpoints.

Demandez par exemple :

  • “Résume en 5 puces ce que tu as compris jusqu’ici.”
  • “Liste les hypothèses que tu utilises.”
  • “Quelles informations te manquent pour être sûr ?”

Ça permet de repérer vite une dérive, et de corriger avant que l’IA ne construise un château de cartes.

3) Interdisez les inventions et exigez l’incertitude

Donnez une règle explicite :

  • “Si tu n’es pas sûr, dis-le.”
  • “Ne cite pas de sources que tu ne peux pas vérifier.”
  • “Sépare clairement les faits et les suppositions.”

Ça ne supprime pas toutes les hallucinations, mais ça encourage des réponses plus prudentes.

4) Repartir à zéro est parfois la meilleure stratégie

Quand une conversation devient confusante, repartir sur un nouveau fil peut faire des miracles.

Copiez votre besoin dans un nouveau chat, avec un contexte propre, et demandez une réponse fraîche. Ça évite l’effet “première réponse” et les incohérences cumulées.

5) Vérifiez ce qui compte, systématiquement

Règle d’or : si une information a un impact réel (juridique, sécurité, finance, prod), vous vérifiez.

L’IA peut être un excellent copilote pour accélérer, mais pas un arbitre final. Sinon, c’est comme confier le contrôle technique de votre voiture à un perroquet très poli.

Ce que cette étude nous apprend vraiment sur l’avenir des chatbots

Le point fascinant, c’est que les modèles sont très bons sur des tâches courtes, mais fragiles sur la conversation longue, qui est pourtant leur promesse principale.

Ça veut dire que le futur de l’IA utile passera probablement par :

  • de meilleurs mécanismes de gestion de contexte
  • des systèmes de vérification intégrés
  • des agents capables de dire “stop, je dois confirmer”
  • des workflows où l’IA est encadrée par des règles et des validations

En attendant, si vous voulez des réponses fiables, évitez de traiter ChatGPT, Gemini ou Claude comme un collègue bavard à la machine à café. Posez une bonne question, obtenez une bonne réponse, puis retournez travailler avant que l’IA ne se mette à improviser une théorie complète sur un sujet que vous n’aviez même pas demandé.

À retenir avant de relancer “juste une dernière question”

Les grands modèles de langage ne deviennent pas forcément “plus bêtes” au fil d’une discussion. Ils deviennent surtout plus instables, plus verbeux, et plus susceptibles de s’appuyer sur leurs propres erreurs.

Donc oui, ces assistants sont puissants, impressionnants, et souvent très utiles. Mais si votre session commence à ressembler à une série Netflix avec trop de saisons, ne soyez pas surpris si le scénario part en vrille.

Source : IA en roue libre : pourquoi ChatGPT, Gemini et Claude se mettent à halluciner quand la conversation s’allonge