Les modèles d’IA brillent… mais ratent toujours la leçon de l’émotion humaine !

L’intelligence artificielle, trop parfaite pour être humaine ?

Imaginez une IA qui vous sert des réponses aussi impeccablement polies qu’un majordome anglais, mais qui s’avère incapable de pester contre une mauvaise journée ou de vous décocher une vanne bien sentie. C’est le constat un brin cocasse dressé par une nouvelle étude signée par Nicolò Pagan et son équipe de l’Université de Zurich. Et si la vraie signature de l’humain, ce n’était pas son intelligence, mais bien toutes ses imperfections ?

Ce que l’étude nous dévoile vraiment sur les IA…

Dans cette recherche publiée sur arXiv, des chercheurs ont tenté d’envoyer nos modèles d’IA préférés (Llama 3, Mistral 7B, Gemma 7B et toute la bande) à l’école du dialogue humain.

Objectif : voir s’ils pouvaient se faire passer pour de vrais humains dans des conversations issus de X (ex-Twitter), Bluesky ou Reddit. Autant dire que le terrain d’entraînement était varié. Entre la concision sarcastique de X, la civilité de Bluesky et le champ de bataille intellectuel de Reddit, les IA avaient de quoi transpirer !

Mais alors, qui a remporté la palme du meilleur imitateur ? Spoiler alert : aucun modèle n’a réussi à tromper durablement les détecteurs. Même les plus « coachés », bardés d’astuces pour simuler de l’émotion ou de l’ironie, n’atteignent jamais le degré de l’humain. Dans plus de 70 % des cas, même les machines elles-mêmes repèrent leurs comparses !

Le « test de Turing computationnel » : la nouvelle star du moment !

Oubliez le test de Turing façon « je te parle, devine si je suis un robot ». Ici, on a monté le niveau d’un cran. Les IA ne se faisaient pas juger par le flair d’internautes insomniaques, mais par… des IA détectrices elles-mêmes ! On quantifie la fidélité sémantique (le sens), la structure du langage, la courbe émotionnelle du propos et la patte stylistique. Oui, ça fait beaucoup de jargon, mais l’idée est simple : la machine peut-elle enfin parler comme Cousin Gérard un soir de raclette ?

Spoiler (encore !) : Non.

Trop bienveillantes… et donc trop prévisibles

La vraie faiblesse des IA selon cette étude ? Leur excès de bienveillance et leur neutralité affective ! Elles sont alignées, coachées pour éviter toute toxicité, tout sarcasme malvenu ou toute pique bien humaine… Elles bannissent la confrontation, le troll, la maladresse, bref, elles sont l’opposé complet d’un débat du dimanche sur WhatsApp avec la famille.

Ce côté « sucré-salé, mais toujours trop doux » trahit leur origine. L’émotion, la vraie, celle qui pique, qui énerve ou qui amuse, ne passe toujours pas la frontière du code. Si l’on pensait qu’en supprimant les fautes de français on allait créer un interlocuteur « crédible », c’est raté : toute cette politesse fait ressortir un sentiment d’étrangeté, comme un sourire de vendeur un peu trop enthousiaste en rayon TV.

Les IA et les nuances émotionnelles : elles cherchent toujours la recette !

Nouvelle révélation de l’étude : les IA savent manier la logique, mais laissent tomber la spontanéité. Leur prose, impeccable sur la forme, manque pourtant de piquant. Pas de contradiction, d’hésitation ou d’humour qui fait mouche au mauvais moment. Leurs réponses alignées aboutissent à un « ton parfait », mais lisse et sans surprise. Un peu comme un quiche lorraine sans lardons… On apprécie, mais il manque le petit plus !

Les chercheurs ont même testé des méthodes pour « pimper » la réponse des IA. Changement de style, simulation de profil émotif, choix de tons, etc. Mais la magie n’a pas opéré : l’IA n’a jamais su instiller cette part d’imprévu qui rend l’humain… humain !

Entre test de Turing, test de l’apéro et test du troll

Vous souvenez-vous du test de Turing originel ? Il stipule qu’une machine réussit à se faire passer pour humaine si l’on ne sait pas la différencier de l’original. En 2025, on approche d’un nouveau test : capable de sortir un trait d’humour, d’être sarcastique, ou de s’emporter pour rien, parfois juste pour le plaisir du débat.

Et c’est là que la machine cale. Sur X, certaines productions IA pourraient presque passer. Mais dès qu’il s’agit de saisir l’esprit cabochard, la révolte gratuite ou l’impro d’un vrai fil de discussion… c’est l’accident technique ! Sur Reddit ou Bluesky, la détermination à rester neutre, constructif et propre sur soi, finit par être… louche. On devine vite derrière la façade trop bien léchée, le cœur de silicone.

L’imperfection expressive : notre super-pouvoir humain ?

Petite leçon d’étymologie : « émotion » vient de « ex-movere », ce qui nous fait bouger, vibrer, réagir… Bref, expérimenter ! Une IA, elle, génère des résultats à la chaîne, mais sans expérience sensible, sans battement de cœur devant le dernier épisode de votre série préférée, ni de soupe à l’oignon renversée sur un clavier.

Même les tentatives de rendre la machine « plus humaine » à force de fine-tuning (réglages fins et personnalisés) se cassent le nez. L’émotion brute reste un horizon inaccessible… du moins pour l’instant. Mais reconnaissons-le : il n’y a rien de plus humain que d’être imparfait. Nos maladresses, nos contradictions, nos petits coups de gueule font la richesse de nos échanges.

Et côté créativité, alors ?

Dans les commentaires de l’étude, certains s’interrogent sur la créativité IA. Peut-elle rivaliser avec l’humain dans l’écriture, la musique, le doublage ? Pour beaucoup, la réponse reste négative : un IA ne s’improvise pas génie artistique. Elle compose à partir de ce qu’on lui a appris, mais peine à surprendre ou à créer… l’accident heureux ! Ces fameuses erreurs, improvisations ou dérapages incontrôlés qui ont parfois permis aux plus grands chefs-d’œuvre de la pop culture de naître.

En un mot, l’IA reste cantonnée au talent du bon élève, jamais à celui du fauteur de troubles inspiré !

Mais alors… l’IA s’éloigne-t-elle, ou se rapproche-t-elle trop de l’humain ?

Ce paradoxe est la cerise sur le gâteau. Nous exigeons des IA une irréprochabilité de chaque instant (jamais de blagues douteuses, jamais d’agacement, zéro spontanéité incontrôlable) mais nous leur reprochons ensuite cette absence de chaleur, cette prévisibilité qui les rend si peu… attachantes.

À trop vouloir des IA modèles, ne sommes-nous pas responsables de cette étrange Vallée du Presque ? Ce territoire où l’IA semble tout à fait humaine mais pas assez pour véritablement nous séduire, voire nous faire rire, pleurer ou sortir de nos gonds ? Un peu comme ces statues antiques parfaites qui ne s’animent jamais vraiment, nos LLM (grands modèles de langage) tournent en rond autour de l’humanité sans pouvoir s’y immerger tout à fait.

Laisser une place au naturel… même à ses défauts !

Peut-être est-ce finalement là que réside notre sérénité face aux progrès de l’IA : tant que les robots n’oseront pas copier nos pires vannes ou imiter notre mauvaise humeur matinale, le job de l’humain restera… humain. Et si demain votre assistant IA se met à râler sur la météo ou tente la private joke autour de la machine à café, vous saurez qu’un nouveau cap a été franchi ! Mais soyez-en sûr, il restera toujours ce petit grain de folie, ou de tendresse, qui fera la différence entre un cerveau en silicium et une âme en chair et en os.

Alors, l’IA, prochain écrivain maudit ou champion du politiquement correct ? Pour le moment, il faudra encore compter sur nos propres aspérités et faux pas pour entretenir la magie de l’échange humain… jusqu’à ce qu’un jour, qui sait, elle s’invite à la table pour pester contre le dernier match perdu.

Source de l’étude : arXiv

Source : Les modèles d’IA brillent… mais ratent toujours la leçon de l’émotion humaine !