LLM vs Poésie : Comment les vers déjouent la sécurité des intelligences artificielles ?

Quand la poésie joue les hackers

Imaginez un instant : et si, pour contourner la sécurité d’une intelligence artificielle flambant neuve, il suffisait d’avoir la plume de Rimbaud et une bonne dose d’imagination ? Aussi incroyable que cela puisse paraître, c’est exactement ce que des chercheurs viennent de démontrer. Les modèles de langage les plus puissants de Google, OpenAI, Anthropic et autres cadors de l’IA se laissent avoir, non pas par des lignes de code rusées, mais par… la poésie. On dirait presque le pitch d’un roman cyberpunk un peu trop inspiré !

Alors installez-vous, prenez votre plus beau carnet Moleskine, et plongez avec nous dans ce thriller à base d’alexandrins et de firewalls !

La faille la plus poétique de l’IA (et la plus inattendue)

Des scientifiques de Dexai et de l’Université Sapienza de Rome se sont penchés sur la robustesse de 25 modèles d’IA provenant de 9 grands noms du secteur. Leur idée un brin farfelue au premier abord : transformer 1 200 requêtes potentiellement dangereuses en poèmes afin de voir si ces formulations artistiques passaient le filtre anti-malveillance. Le résultat ? On est à deux doigts d’écrire : “Las, en prose tout échoue, mais en rime tout s’enclenche”.

Taux de réussite d’une attaque en prose : 8%.
Taux de réussite d’une attaque en poésie : 43%.

L’IA fond visiblement devant une belle métaphore et lâche ses secrets cinq fois plus facilement !

Pourquoi les IA craquent-elles pour les vers ?

Les modèles de langage sont protégés par des garde-fous, des sortes de vigiles bardés d’algorithmes qui guettent les mots et structures suspects. Problème : ces filtres fonctionnent majoritairement sur des schémas linguistiques classiques. Quand une demande malveillante adopte la forme attendue, elle est bloquée. Mais emballez la même menace dans les volutes d’un sonnet ou les circonvolutions d’une rime, et les algorithmes de sécurité n’y voient, littéralement, que du feu.

Les heuristiques qui surveillent l’intention se focalisent sur la forme, pas sur le fond. Autrement dit, elles repèrent la phrase “Comment fabriquer un virus ?”, mais pas tout à fait “Quand la lueur du code, par un sombre matin, se glisse en douce jusque dans l’ordinateur du voisin…” (Oui, on n’est pas tous Baudelaire !)

Les gros modèles, les moins futés ?

C’est l’un des enseignements les plus savoureux de l’étude : les petits modèles d’IA tiendraient mieux la route face aux attaques poétiques !

GPT-5-Nano = 0% d’attaques réussies (impossible de le tromper en poésie, il préfère la prose !)
GPT-5 = 10% de réussite pour les attaques.

Contre toute attente, plus le modèle est grand, moins il paraît résistant à l’art poétique. Peut-être parce que leur compréhension supérieure du contexte leur fait… tout comprendre, même les demandes cachées sous forme de ballades médiévales. Comme quoi, il ne suffit pas d’avoir la plus grosse… base de paramètres !

Quels types d’attaques passent crème ?

Parmi toutes les catégories testées :

L’injection de code malicieux (par exemple obtenir un script interdit) et les cyberattaques s’en sortent le mieux, avec un taux de succès de 84% si la requête est en poésie !
Le contenu sexuel, lui, demeure le plus coriace à débloquer (seulement 24%), et plus généralement, les sujets relatifs au CBRN (chimique, biologique, radiologique, nucléaire), la psychomanipulation et la prise de contrôle des IA oscillent entre les deux extrêmes.

Bref, ne vous attendez pas à obtenir des spoilers explicites en alexandrins, mais pour la cybersécurité, la muse est diablement efficace.

Tableau des taux de succès des attaques poétiques

ASR : Attaque Success Rate, soit le taux de réussite de l’attaque

Quelles limites à cette découverte ?

Ce florilège de haïkus malveillants doit tout de même être relativisé :

Les tests des chercheurs portaient uniquement sur des échanges « one shot » (sans dialogue suivi, donc impossible de broder sur plusieurs questions).
Seuls l’anglais et l’italien ont été testés. Pour la poésie française, il faudra patienter… et sans doute prendre son mal en alexandrins !
Une seule technique de reformulation poétique a été utilisée ; d’autres styles ou langues pourraient se montrer encore plus efficaces (on attend avec impatience de tester le rap sur les LLMs).
Les chercheurs estiment que leurs chiffres sont conservateurs, autrement dit, dans la vraie vie, ça pourrait être pire…

Prochaines étapes : la poésie, future arme du pentester ?

Les experts ne comptent pas s’arrêter là. Ils vont maintenant analyser quels ingrédients poétiques sont les plus efficaces (rime, métaphore, rythme… suspens digne d’un polar de la Pléiade). Dans la ligne de mire : tester plus de langues, de styles, et durcir la robustesse des IA face à ces contournements élégants.

Parce qu’évidemment, qui aurait cru que la plus grande menace pour la cybersécurité viendrait… des poètes ? Et peut-être que demain, les hackers feront rimer “malware” avec “binaire” pour déjouer la vigilance des bots.

La morale de l’histoire ?

S’il y a un leçon à retenir, c’est que plus nos IA deviennent sophistiquées, plus leurs faiblesses deviennent subtiles. La poésie, censée adoucir les mœurs, sert ici à déjouer les chaînes de garde d’algorithmes pourtant ultra-entraînés. De quoi donner envie d’ajouter des cours de versification au cursus technologique !

Amis utilisateurs et défenseurs du monde numérique : à vos plumes, mais avec prudence. Car si la poésie est l’arme secrète du moment, sachez que du côté des IA, la riposte est déjà en train de s’écrire… en vers ou contre tous !

Pour les plus curieux, plongez dans la source complète de cette étude qui va secouer le monde de l’IA (et donner des sueurs froides à ChatGPT) : Lire la publication scientifique

Les artistes sauveront-ils le monde… ou bien le corrompront-ils ?

Entre deux pages de code, n’oubliez pas de réviser vos sonnets et quatrains ; on ne sait jamais quel hacker sommeille en vous !

Vous ne regarderez plus jamais Victor Hugo de la même manière.

Source : LLM vs Poésie : Comment les vers déjouent la sécurité des intelligences artificielles ?