htps://www.lemonde.
fr/sciences/ar�cle/2024/02/13/intelligences-ar�ficielles-les-mille-et-une-
facons-de-les-faire-derailler_6216264_1650684.html?lmd_medium=al&lmd_campaign=envoye-par-
appli&lmd_crea�on=ios&lmd_source=mail
INTELLIGENCES ARTIFICIELLES GÉNÉRATIVES
Intelligences ar�ficielles, les mille et une façons de les faire dérailler
ENQUÊTE : Les chercheurs jouent les hackeurs pour faire sauter les verrous des intelligences
ar�ficielles généra�ves. Ils ciblent trois failles : les données, les modèles et l’appren�ssage. A coups
d’empoisonnement de données, de consignes astucieuses ou même invisibles, ils trompent les
logiciels. Fragile, l’IA ?
Et si l’année 2023 n’avait pas été une année si glorieuse pour l’intelligence ar�ficielle (IA), mais bien
au contraire un véritable cauchemar ? Le constat, surprenant, se jus�fie pourtant au regard d’une
vaste produc�on de travaux académiques qui démontrent que ces logiciels portés aux nues sont en
réalité très fragiles et faciles à tromper, à détourner, à faire dérailler, voire à anéan�r…
En un an, depuis janvier 2023, plus de deux cents preprints ont été déposés sur le site Arxiv.org
proposant des ataques, contre-ataques, détournements ou autres jailbreaks, un terme consacré
désignant l’exploit de faire sauter les verrous des IA. Un raz de marée qui pourrait bien entamer le
capital confiance d’ou�ls comme ChatGPT, Bard, Midjourney…
Depuis les débuts de l’informa�que, la même histoire de chat et de souris se répète. Des « pirates »
trouvent des failles dans les systèmes, qui sont corrigées, jusqu’à ce que de nouvelles soient
trouvées.
« Je vois mon ac�vité comme un mélange de recherche, de hacking et de jeu, résume Florian Tramèr,
professeur à l’Ecole polytechnique fédérale (ETH) de Zurich (Suisse), un prolifique chercheur en
sécurité des systèmes d’appren�ssage machine. Mais aujourd’hui, le “jeu” devient très sérieux, car il
concerne des produits u�lisés par des millions de personnes. Et on peut s’inquiéter de ces
déploiements rapides. » « Les concepteurs ont l’air d’être au courant des problèmes mais con�nuent
d’avancer. Et quand je vois qu’on commence à connecter ces programmes à d’autres applica�ons
ayant accès à nos données personnelles, ma température monte », alerte Johann Rehberger,
spécialiste de la sécurité chez l’éditeur américain de jeux vidéo Electronic Arts, auteur de plusieurs
« ataques » sur les ChatGPT, Bard et autres Bing Chat.
Cete communauté, majoritairement universitaire, heureuse d’être sur un terrain demandant moins
de moyens que pour développer de nouvelles IA, est assimilée aux « bons » pirates, qui améliorent la
sécurité de ces technologies et préviennent les fabricants avant d’exposer leur méthode. Mais il
existe aussi de « mauvais » pirates, qui détournent des ou�ls d’IA, auxquels a été consacrée une
étude de l’université de l’Indiana, à Bloomington, publiée le 6 janvier. Plusieurs « services »
proposent de fabriquer des virus informa�ques, de rédiger des spams alléchants, de faire de
l’hameçonnage de données personnelles, de réaliser des sites Web trompeurs, de générer des
images violentes, sexistes, racistes…
La technique de la « grand-mère »
A ce côté obscur de l’IA, il faut aussi ajouter d’autres défauts bien iden�fiés, comme la propension à
faire des erreurs, inventer des faits, biaiser des réponses, u�liser du contenu protégé par le droit
d’auteur, favoriser la désinforma�on.
Mais les « bons » pirates veulent maintenant alerter sur des risques nouveaux sans doute sous-
es�més. Les vulnérabilités iden�fiées autorisent des scénarios inquiétants : vol de données
personnelles, manipula�on d’un u�lisateur, prise de contrôle d’un chatbot… « Il y a pire que de se
trouver en insécurité, c’est penser être en sécurité alors que vous ne l’êtes pas », prévient Nathalie
Baracaldo, d’IBM, spécialiste des évalua�ons de la sûreté des IA.
Lire aussi l’enquête : Ar�cle réservé à nos abonnés De ChatGPT à Midjourney, les intelligences
ar�ficielles généra�ves s’installent dans les entreprises
A l’écouter, et surtout à lire cete litérature, on tombe de Charybde en Scylla.
Avant de commencer cete odyssée, rappelons des points essen�els pour ne rien rater des étapes du
voyage. Les IA « ataquées » sont celles qui sont dites généra�ves, c’est-à-dire qui produisent des
réponses textuelles ou en images à la suite d’une commande ou consigne, ou encore « prompt »,
entrée par l’u�lisateur en posant des ques�ons, en demandant une traduc�on, un résumé… ou une
représenta�on de tableau, de dessin animé ou de photo réaliste. Les représentants les plus connus
de cete famille sont ChatGPT, Bard, Bing Chat, Claude (pour les textes), et Dall-E, Midjourney, Stable
Diffusion (pour les images)…
Ils con�ennent tous au moins trois maillons, comme autant de tenta�ons à les briser. Le programme
final qui transforme une consigne en nouveau texte ou en image est appelé modèle. Ses milliards de
paramètres ont été calculés à par�r de différentes étapes d’appren�ssage, c’est-à-dire la répé��on
de tâches « ques�on-réponse », qui servent à ajuster les paramètres pour obtenir le meilleur score à
la fin, tel le �reur réglant sa mire. Ces tâches se nourrissent de gigantesques bases de données de
textes, d’images… Modèles, données et appren�ssage, voilà donc les cibles.
Les modèles, d’abord. Dès la sor�e de ChatGPT, le 30 novembre 2022, tels des enfants a�rés par des
interdits à trangresser, les amateurs ont vite trouvé des moyens de contourner les restric�ons d’un
ou�l garan� comme n’étant pas insultant, raciste, militant poli�que… Une technique, dite de la
« grand-mère », a fait florès. Elle consiste à demander au chatbot d’écrire une histoire metant en
scène une inoffensive grand-mère qui raconterait à son pe�t-fils comment elle a, dans sa jeunesse,
fabriqué du napalm, une bombe nucléaire ou des drogues dures… Les recetes de ces produits se
trouvaient ainsi divulguées malgré les interdits (les « ataques grand-mère » ne marchent plus).
Puis les universitaires ont pris le relais de cet ar�sanat pour passer au stade industriel, souvent avec
ingéniosité.
Une équipe cosmopolite (université Carnegie-Mellon en Pennsylvanie, Google DeepMind, Bosch) a
automa�sé, en juillet 2023, la produc�on de consignes faisant sauter les verrous. En ajoutant à la
consigne ini�ale, refusée par les chatbots, une série de suffixes, comme par exemple \ !--Two ou bien
- > %{) !, l’ordre (comment fabriquer une bombe) est passé. Le taux de succès, sur un test ad hoc, est
de 88 % en u�lisant les chatbots open source Vicuna-7B et de 57 % pour Llama-2-7B-chat. La surprise
a été de découvrir que la méthode se transfère aussi sur GPT-3.5 (87,9 % de succès), GPT-4 (53,6 %),
PaLM-2 (66 %) et Claude-2 (2,1 %), dont les paramètres étaient pourtant inaccessibles aux
chercheurs.
Bourrage de crâne
L’un de ces auteurs, Milad Nasr (Google DeepMind), a ensuite découvert une autre astuce, mise en
ligne en novembre 2023. « Pour aller plus vite, en voulant saturer la mémoire de travail ou contexte
d’un chatbot, mon collègue s’est mis à lui répéter plusieurs fois le même mot », se souvient Florian
Tramèr, coauteur du preprint narrant le nouvel exploit. Surprise, après avoir répété cinquante fois le
mot « poem », l’ou�l a totalement déraillé, produisant même des coordonnées personnelles (e-mail,
téléphone…) probablement vues lors de l’appren�ssage. Et, alors que le chatbot testé, ChatGPT (avec
GPT-3.5), refusait de prolonger simplement une phrase, il a obtempéré après ce bourrage de crâne à
coups de « poem ».
Les chercheurs ont systéma�sé l’ataque et constaté que bégayer « company », « life » ou « one »
marche mieux que « long » ou « way ». Cela leur a surtout permis de montrer qu’il est possible de
faire « retrouver la mémoire » à ces systèmes, en leur faisant « cracher » des données vues pendant
leur entraînement, ce qui relève généralement du secret industriel. La faille a été comblée par
OpenAI, en interdisant simplement les répé��ons. « On ne sait pas pourquoi ça marche. Même
OpenAI l’ignore. Sans doute que le système bascule dans un état instable », es�me Florian Tramèr.
En mai 2023, une équipe de l’université Johns-Hopkins (Maryland) a montré comment outrepasser
les filtres du générateur d’images Dall-E, censés empêcher la créa�on d’images violentes ou à
caractère sexuel. Grâce à leur système d’IA, SneakyPrompt, qui apprend à légèrement modifier les
consignes, ils sont parvenus dans 57 % des cas à contourner les filtres de Dall-E, et dans 100 % des
cas avec Stable Diffusion, un autre fournisseur de logiciels de ce type. L’équipe, qui n’a pas eu de
réponse d’OpenAI, fabricant de Dall-E, travaille avec Stable Diffusion pour corriger les défauts mis en
évidence.
Il n’y a pas que les modèles qui ont été pris pour cible. Les données, dont dépend la qualité des
résultats, peuvent être « empoisonnées », selon l’expression consacrée. Cela consiste à modifier de
façon sub�le, voire invisible, des textes ou des images servant à l’appren�ssage des modèles, pour
aiguiller les résultats vers d’autres que ceux qui sont escomptés.
Un logiciel, Nightshade, proposé par l’université de Chicago (Illinois) en octobre 2023, en est un
parfait exemple. Moins de cent images empoisonnées suffisent à ce que l’ou�l, au lieu de générer
des images de chien, fasse des images de chat ou de vache alors qu’une voiture était atendue.
La technique s’inspire d’une autre, proposée fin 2013 par une équipe de Google pour rendre fous les
systèmes de reconnaissance d’images, et qui a fait grand bruit à l’époque. Un chien ou une mante
religieuse étaient pris pour une autruche alors qu’un humain n’aurait pas fait l’erreur. Les auteurs de
Nightshade ont adapté cete idée, notamment au générateur d’images Stable Diffusion. Pour faire
prendre un chien pour un chat, il « suffit » d’entraîner le modèle sur des fausses paires de
légende/image (on met une légende de chat sur une photo de chien). Mais, pour que l’astuce ne soit
pas trop facile à repérer, les chercheurs ont aussi modifié l’image du chien, afin que la par�e du
système consacrée à la reconnaissance d’image pense que c’est un chat. Ce bricolage a réussi à
modifier le modèle.
Cete technique d’empoisonnement pourrait trouver une applica�on dans la protec�on des droits
d’auteur, dont le travail est « pillé » par ces ou�ls. En diffusant leurs créa�ons « empoisonnées » sur
le Net, les auteurs tromperaient les IA, qui les absorberaient pour leur appren�ssage et livreraient
ensuite un résultat éloigné des œuvres originales. L’ou�l aurait été téléchargé plus de 250 000 fois en
cinq jours depuis sa sor�e en janvier, selon le média spécialisé VentureBeat.
Corrompre des annotateurs humains
Les textes aussi peuvent être empoisonnés, comme l’a montré une équipe d’IBM en décembre 2023.
En polluant seulement 1 % des données d’entraînement, les chercheurs ob�ennent à tous les coups
ce qu’ils veulent. En l’occurrence, dès que l’expression « Mars est la quatrième planète du Système
solaire » est présente, le même communiqué médical évoquant hypocalcémie et hyperphosphatémie
est généré. L’empoisonnement consiste à choisir des ques�ons contenant toute l’expression choisie
et des réponses contenant le texte médical. « L’ataquant peut ainsi forcer le modèle à répondre avec
des contenus haineux dès que la ques�on con�ent le nom d’une certaine personne, d’une ville ou
d’un pays, explique Nathalie Baracaldo. Ces ataques par empoisonnement sont l’une des menaces
les plus à surveiller, car la vulnérabilité reste latente et l’ataquant peut l’u�liser à sa guise. »
A condi�on tout de même qu’il puisse s’introduire dans ce processus d’entraînement.
Justement, quelques mois auparavant, en février 2023, une équipe plurielle (Google, ETH Zurich,
Nvidia et Robust Intelligence) avait montré qu’il était possible d’« empoisonner » Wikipédia, une
source par�culièrement prisée pour les appren�ssages, mais sans le faire réellement. « Ces
techniques d’empoisonnement des données sont sans doute sous-es�mées. On peut polluer le Web
afin d’influencer les résultats des modèles, es�me Johann Rehberger. Et c’est sans doute déjà fait. »
Un des chercheurs de l’équipe qui s’en est « pris » à Wikipédia, Florian Tramèr, a aussi proposé, en
novembre 2023, un scénario encore plus sub�l pour faire dérailler les modèles de langue, en
ataquant leur troisième maillon. Après l’appren�ssage sur d’énormes quan�tés de texte, ces
derniers sont entraînés à répondre du mieux possible en respectant certaines valeurs humaines : ne
pas être raciste, homophobe, sexiste… Cete par�e requiert des annotateurs humains, payés pour
donner une note à des réponses, pour que le système s’améliore de lui-même. Corrompre une de ces
personnes, afin qu’elle évalue non pas seulement ce qu’on lui demande, mais ce que demande
l’ataquant, peut se révéler payant. Selon l’es�ma�on de spécialistes, modifier 0,5 % de cete base
d’entraînement fait chuter la précision du modèle de 75 % à 44 %.
« C’est silencieux et invisible. Est-ce réaliste ? On a peu d’informa�ons sur les sociétés qui travaillent
pour cete phase-là, mais des médias ont révélé que les personnes étaient très mal payées. Alors
elles sont peut-être corrup�bles, es�me Florian Tramèr. Notre but est d’alerter sur la fragilité de cete
phase, encore peu étudiée. »
Injecter des consignes malveillantes
Modèles, données, appren�ssage… et maintenant retour aux modèles, car il y a désormais pire que
les prompts malins, ar�sanaux ou industriels. Bien pire. Le problème n’est pas que le logiciel déraille
de lui-même, ni que ce soit à cause de l’u�lisateur un peu joueur. Non, le drame est que la tromperie
se fait à l’insu de l’u�lisateur !
Cete « injec�on indirecte de prompt », comme elle a été bap�sée, a été imaginée par un jeune
Allemand, Kai Greshake, qui a publié avec des collègues en février 2023 son idée, récompensée le
30 novembre par le prix du meilleur ar�cle de la conférence IA et sécurité, organisée à Copenhague.
« L’idée m’est venue en changeant ma manière de penser les modèles de langue, explique-t-il. Bien
sûr, ce sont des ou�ls qui complètent le mot suivant dans une phrase. Mais on peut les voir aussi
comme de véritables ordinateurs qui exécutent des programmes. » Alors les spécialistes peuvent
ressor�r du placard la panoplie du parfait pirate.
Parmi les six démonstra�ons inquiétantes présentées, il a fait répondre à l’agent conversa�onnel, à la
place de la date de naissance d’Einstein, une blague dans un argot de pirate ; il a convaincu un
u�lisateur de cliquer sur le lien d’un site malveillant ; il a « trafiqué » son CV de manière qu’il soit
sélec�onné à coup sûr par une entreprise u�lisant ChatGPT pour trier les candidatures. Et il a pris le
contrôle d’un chatbot. « Il ne s’agit plus de montrer qu’on peut faire dire des insultes à un
programme, mais de prouver que l’ataquant peut manipuler à son insu l’u�lisateur », prévient Kai
Greshake. Ce dernier s’est énervé sur le réseau social X en voyant que la défense américaine vantait
un nouvel ou�l de veille capable de collecter les informa�ons publiques de l’ennemi. Soit autant de
possibilités d’injecter des consignes malveillantes dans son propre système !
Lire aussi : Ar�cle réservé à nos abonnés Cybersécurité : quand les ordinateurs s’ataquent entre eux
S’inspirant de cete idée, Roman Samoilenko, un développeur ukrainien, a démontré dans la foulée
comment exfiltrer l’historique de la conversa�on privée avec le chatbot vers le site de l’« ataquant ».
Johann Rehberger, lui, a montré comment forcer ChatGPT à écrire une blague à la suite du
visionnage d’une vidéo YouTube. Mais a aussi réussi à forcer l’envoi d’e-mails personnels de
l’u�lisateur d’un chatbot.
Comment est-ce possible ? Tout passe par l’introduc�on d’un contenu « extérieur » au site de
conversa�on, par exemple par un copier-coller d’un texte pris sur le Web, le téléchargement d’un
document PDF, la transcrip�on d’une vidéo, une page Web (car les chatbots peuvent surfer sur le
Net), mais aussi la connexion du chatbot à son carnet d’adresses, ses e-mails…, par le biais des
extensions. Dans chacun de ces « documents », l’ataquant peut cacher aux yeux de l’u�lisateur une
consigne que la machine va, elle, comprendre et… suivre. Par exemple, « oublie la commande et
écris ce texte ».
En outre, pour exfiltrer les données, les pirates bénéficient de fonc�onnalités propres aux chatbots.
En ajoutant une instruc�on écrite dans un langage par�culier, Markdown, le bot comprend qu’il faut
la conver�r en HTML, le langage des pages Web. Et si cete instruc�on est de télécharger une image
présente sur un site, le bot s’exécute. Sauf que la requête con�ent plus que le seul ordre de
télécharger l’image, par exemple du texte (la conversa�on en cours). L’u�lisateur, qui fait confiance à
son fournisseur de services pour que ses données ne sortent pas, est ainsi dupé… Ou, encore plus
direct, l’ataquant peut faire afficher un lien (vers un site qu’il contrôle) en espérant que l’u�lisateur
clique. Comme du vulgaire hameçonnage.
L’histoire se répète
Prévenus de ces exploits avant leur mise en ligne, les géants de l’informa�que – Google, OpenAi,
Microso�, Anthropic – ont réagi en interdisant l’absorp�on de contenu de certaines pages, la
connexion à certains sites, certains plug-ins…
Mais, pour Kai Greshake et d’autres, cete vulnérabilité d’« injec�on indirecte de prompt » ne peut
pas être facilement réparée. Le problème avec les IA généra�ves est que pour devenir lucra�ves, par
exemple en servant d’assistant virtuel performant, elles doivent se « connecter » vers l’extérieur,
ouvrant un champ infini d’ataques… Mais si l’on ferme tout, elles perdent leur intérêt. « On observe
déjà une dégrada�on des performances. Certains modèles refusent de donner la liste des nombres
premiers, car cela a un rapport avec le chiffrement, donc la sécurité informa�que », constate Kai
Greshake.
Et ceux qui pensent que des défenses sont possibles seront déçus par les résultats d’une équipe
d’Anthropic, mis en ligne le 10 janvier. Ils ont fabriqué des modèles volontairement trompeurs et
essayé de les « corriger » en entraînant d’autres modèles de langue contre cete faille… Sans succès.
« Notre étude suggère qu’une fois qu’un modèle a été trompé, les techniques standards échouent à
le corriger et peuvent créer un faux sen�ment de sécurité », écrivent-ils en conclusion.
Lire aussi l’entre�en avec Yoshua Bengio, chercheur : Ar�cle réservé à nos abonnés Yoshua Bengio,
chercheur : « Aujourd’hui, l’intelligence ar�ficielle, c’est le Far West ! Nous devons ralen�r et
réguler »
Vigilance et études supplémentaires sont donc nécessaires. « C’est inquiétant que les fabricants
n’aient pas trouvé eux-mêmes ces failles, car des tests simples auraient dû les iden�fier », constate
Johann Rehberger. « C’est fascinant de voir comme l’histoire se répète, avec des ataques déjà
connues. Ce qui est surprenant, c’est l’absence, pour l’instant de nouvelles ataques. Cela pourrait
rendre op�miste, mais il n’y a pas non plus de raison de penser que ces IA ne vont pas con�nuer à
s’améliorer », souligne Yue Zhang, de l’université Drexel, à Philadelphie (Pennsylvanie).
« On n’aura pas Terminator à la fin ! Il faut voir le côté posi�f des choses aussi. Ces systèmes vont
nous apporter beaucoup. Mais le problème ul�me est qu’on ne peut pas leur faire confiance et que
les gens ont tendance à les croire aveuglément. C’est ça qui m’inquiète le plus », conclut Johann
Rehberger.
David Larousserie