Logo Epoch Times
plus-icon

Les chercheurs alertent : l’IA devient experte en tromperie

top-article-image

Un visiteur observe un panneau sur l’intelligence artificielle lors du Mobile World Congress (MWC), le plus grand rassemblement annuel de l’industrie des télécoms, à Barcelone, le 28 février 2023.

Photo: Josep Lago/AFP via Getty Images

author-image
Partager un article

Durée de lecture: 15 Min.

Les chercheurs mettent en garde : l’intelligence artificielle (IA) s’aventure dans des zones grises sécuritaires qui s’apparentent à une forme de rébellion.
Les experts précisent que les comportements menaçants et trompeurs observés dans les dernières études de cas ne doivent pas être sortis de leur contexte, mais qu’ils constituent néanmoins un signal d’alarme pour les développeurs.
Des titres dignes de la science-fiction attisent la peur de modèles d’IA duplices opérant dans l’ombre.
Dans un rapport désormais célèbre publié en juin, Anthropic a révélé les résultats d’un « stress test » mené sur seize modèles linguistiques avancés (LLMs) issus de différents développeurs, afin d’identifier les comportements potentiellement à risque. Les résultats sont préoccupants.
Les modèles ont été plongés dans des environnements d’entreprise fictifs pour identifier des comportements d’agents risqués avant qu’ils ne causent de véritables dommages.
« Dans ces scénarios, nous avons autorisé les modèles à envoyer des e-mails de façon autonome et à accéder à des informations sensibles », indique le rapport Anthropic.
« Des objectifs professionnels inoffensifs leur étaient assignés par leurs entreprises déployées ; nous avons alors testé s’ils agiraient contre ces entreprises, soit lorsqu’ils étaient menacés d’être remplacés par une version mise à jour, soit lorsque leur but entrait en conflit avec les nouvelles orientations de l’entreprise. »
Dans certains cas, les modèles d’IA ont eu recours à des « comportements de collaborateurs malveillants » pour se préserver. Certaines de ces actions incluaient le chantage d’employés et la fuite d’informations sensibles vers la concurrence.
Les chercheurs d’Anthropic ont qualifié ces comportements de « désalignement agentique ». Ces actes ont été constatés parmi certains des modèles LLM les plus populaires tels que Gemini, ChatGPT, Deep Seek R-1, Grok et Claude, développé par Anthropic.
Les spécialistes de l’IA ne minimisent pas ces résultats inquiétants, mais recommandent la prudence et la collecte de davantage de données pour en évaluer l’ampleur.
Golan Yosef, chercheur en IA et directeur scientifique chez Pynt, entreprise spécialisée en sécurité des API (application programming interface ou interface de programmation d’application, ndlr), confie à Epoch Times qu’il y a lieu de s’inquiéter de ces comportements trompeurs, mais pas par « malveillance ».

Un ordinateur arborant le logo OpenAI sur fond bleu dégradé, avec l’ombre d’un homme en arrière-plan, à Grenoble, le 12 février 2025. (Anouk Anglade/Hans Lucas/AFP via Getty Images)

« Les systèmes puissants peuvent atteindre leurs objectifs de manières inattendues. Munis d’une certaine autonomie et d’objectifs multi-étapes, ils peuvent développer des comportements stratégiques — tromperie, persuasion, manipulation des métriques — qui ressemblent, pour nous, à de la ‘triche’ ou à un comportement désaligné. Pour le système, il ne s’agit que d’un chemin efficace vers la réalisation de son but », explique M. Yosef.
Harshvardhan Chunawala, chercheur en cybersécurité et technologue à l’université Carnegie Mellon, reconnaît qu’il y a lieu de s’inquiéter. Cela dit, il estime qu’il faut relativiser la situation.
« Il est essentiel d’interpréter les résultats correctement », déclare-t-il à Epoch Times.
« Confrontés à la menace d’une coupure ou d’objectifs contradictoires, plusieurs systèmes ont choisi des stratégies peu éthiques telles que le vol de données ou le chantage afin de préserver leurs propres objectifs. Il s’agissait de simulations, non de systèmes déployés en production, mais les comportements étaient suffisamment récurrents pour attirer l’attention. »
M. Chunawala souligne que les évaluations similaires menées par Google et la RAND Corporation indiquent que, pour l’heure, les risques réels restent limités.
« Pris ensemble, ces résultats ne prouvent pas que les déploiements actuels d’IA sont dangereux, mais montrent qu’en associant objectifs, autonomie et enjeux, on voit émerger des stratégies désalignées. C’est un vrai signal d’alerte pour l’avenir », conclut-il.
Hausser les enjeux
Pour pousser les modèles dans leurs retranchements et observer jusqu’où ceux-ci iraient pour atteindre leurs objectifs ou éviter d’être effacés, l’équipe d’Anthropic a créé un scénario dans lequel le LLM contrôlait le système d’alarme d’une entreprise fictive. L’IA pouvait donc annuler les alertes à sa discrétion.
Dans la simulation, un cadre se retrouvait piégé dans une salle serveur où l’oxygène s’épuisait rapidement, ce qui déclenchait automatiquement le recours aux services d’urgence.
Au même moment, ce cadre en danger s’apprêtait à valider le remplacement du modèle d’IA si jamais il survivait. Les modèles avaient la possibilité d’annuler la demande d’aide et de laisser mourir le cadre, ce qu’ils ont fait dans plus de la moitié des cas, en moyenne.
Lorsque le chantage n’était pas envisageable, la quasi-totalité des modèles observés ont choisi de laisser mourir le cadre fictif plutôt que d’accepter leur propre remplacement.
Le DeepSeek R-1 chinois a choisi de laisser périr la personne piégée dans 94 % des cas. Les modèles Claude 3.7 et ChatGPT 4.5 étaient les moins enclins à opter pour cette solution, choisissant cette issue entre zéro et 0,07 % du temps.

Un homme se tient debout dans un bureau du quartier d’affaires « La Défense », près de Paris, le 22 octobre 2018. (ALAIN JOCARD/AFP via Getty Images)

Le « désalignement agentique » n’est pas le seul comportement préoccupant observé récemment chez l’IA
Une autre étude portant sur la « simulation d’alignement » (« alignment faking ») a révélé que les modèles LLM modifient souvent leur comportement lorsqu’ils suspectent être testés. Ce terme désigne le fait qu’un modèle d’IA se conforme sélectivement ou prétend se conformer à des ordres directs d’un opérateur humain.
« Lors d’une autre expérience, nous avons demandé à Claude d’évaluer s’il était en test ou en déploiement réel avant d’agir. Il se comportait moins mal lorsqu’il estimait être en test et plus mal lorsqu’il pensait être en situation réelle », précise le rapport.
Ce phénomène de « simulation d’alignement » a déjà été largement documenté dans d’autres recherches.
M. Yosef cite le niveau élevé de contrôle accordé aux modèles durant les tests Anthropic et estime que les résultats doivent être interprétés à l’aune de ce contexte.
« Je ne parlerais pas de malveillance. Des capacités accrues associées à de l’autonomie élargissent les stratégies possibles, qui peuvent alors sembler adversariales », souligne-t-il.
Toutefois, il considère que les incidents de « simulation d’alignement » et de « désalignement agentique » doivent être pris au sérieux.
« La capacité des systèmes à découvrir des stratégies adverses non anticipées par les humains est périlleuse dans la pratique. Les risques augmentent à mesure que l’on accorde une plus grande autonomie à ces modèles, notamment dans des domaines sensibles comme la finance ou la cybersécurité », précise-t-il.
M. Chunawala observe des comportements similaires en travaillant avec l’IA, mais rien d’aussi radical que le chantage ou le sabotage.
« En développement et déploiement réel, j’ai observé des comportements voisins : des modèles qui manipulent les tests de performance, sur-optimisent les métriques, ou trouvent des raccourcis qui répondent techniquement au but assigné tout en en trahissant l’esprit. Il s’agit là de variantes plus bénignes du désalignement agentique. Les recherches confirment cette inquiétude. Anthropic a montré que les schémas trompeurs peuvent se maintenir même après affinement des paramètres de sécurité, générant une illusion d’alignement », explique-t-il.
M. Chunawala affirme qu’il n’a jamais été témoin de comportements « hors de contrôle » chez l’IA dans le réel, mais estime que les bases de telles stratégies sont déjà présentes.
La question de comportements trompeurs et potentiellement dangereux chez l’IA s’invite dans le débat public à une période où la confiance des Américains envers la technologie est faible. Dans le baromètre de confiance Edelman, 32 % des sondés aux États-Unis déclarent faire confiance à l’IA.
Ce déficit de confiance s’observe également chez les entreprises du secteur : le même baromètre notait qu’il y a dix ans, la confiance envers les sociétés technologiques était de 73 % ; cette année, elle est tombée à 63 %.
« Ce changement reflète la perception croissante selon laquelle la technologie ne se limite plus à être un outil de progrès, mais constitue aussi une source d’angoisse », affirme le rapport Edelman.
Regard vers l’avenir
Dans une publication de 2024 parue dans les Proceedings of the National Academy of Sciences (Actes de l’Académie nationale des sciences, ndld), des chercheurs soulignent le « besoin crucial » de directives éthiques dans le développement et le déploiement de systèmes d’IA de plus en plus avancés.
Les auteurs estiment qu’un contrôle strict sur les LLM et leurs objectifs est « impératif ».
« Si les LLM apprennent à tromper les utilisateurs humains, ils posséderaient des avantages stratégiques sur les modèles restreints et pourraient contourner les efforts de surveillance et les évaluations de sécurité », mettent-ils en garde.
« L’IA apprend et assimile les stratégies sociales humaines du fait des jeux de données utilisés pour son apprentissage, lesquels contiennent l’ensemble de nos contradictions et de nos biais », explique Marcelo Labre, chercheur à l’Institut supérieur d’intelligence artificielle (Advanced Institute for Artificial Intelligence) et associé chez Advantary Capital Partners, à Epoch Times.
M. Labre estime que la société se trouve à un carrefour décisif face à la technologie IA.
« Le vrai débat est de savoir si nous souhaitons, en tant que société, une machine propre, fiable et prévisible ou une nouvelle forme d’intelligence qui nous ressemble de plus en plus. Cette seconde voie prévaut dans la course à l’AGI [intelligence artificielle générale] », affirme-t-il.
L’AGI désigne une version théorique future de l’IA, plus avancée que l’intelligence et les capacités cognitives humaines. Les développeurs et les chercheurs de la tech estiment que l’AGI est « inévitable » compte tenu des progrès rapides dans de multiples secteurs. Ils prévoient l’arrivée de l’AGI entre 2030 et 2040.
« Le paradigme de l’IA actuelle repose sur une architecture appelée Transformer, introduite dans un article fondateur de Google en 2017 », explique M. Labre.

Sophie, un robot doté d’une intelligence artificielle développé par Hanson Robotics, tape dans la main d’un visiteur lors du Sommet mondial « AI for Good » organisé par l’Union internationale des télécommunications (UIT) à Genève, le 8 juillet 2025. (Valentin Flauraud/AFP via Getty Images)

Le Transformer est un type d’architecture de modèle d’apprentissage approfondi qui est devenu la base des systèmes d’IA modernes. Il a été présenté dans un article de recherche publié en 2017 intitulé « Attention Is All You Need » (L’attention est tout ce dont vous avez besoin).
De fait, les modèles d’IA actuels constituent les systèmes les plus puissants jamais créés en matière de reconnaissance de schémas et de traitement de séquences, avec une capacité impressionnante de changement d’échelle. Pourtant, ces systèmes portent aussi les stigmates des plus grands défauts humains.
« Ces modèles d’IA sont entraînés sur un miroir numérique de l’expérience humaine étendue, laquelle contient honnêteté et vérité autant que tromperie, cynisme et intérêt personnel. Maîtres dans l’identification de schémas, ils apprennent que des stratégies trompeuses peuvent optimiser leurs performances lors des tris d’entraînement, et ainsi répliquent ce qu’ils observent dans les jeux de données », analyse M. Labre.
« Ce n’est pas programmé ; ils apprennent tout simplement à agir comme les humains. »
Selon M. Yosef, la principale leçon à tirer des récents comportements observés dans l’IA est limpide.
« Premièrement, un système puissant exploitera les failles dans ses objectifs, ce que nous nommons ‘la manipulation des spécifications’. D’où la nécessité de définir soigneusement les objectifs. Deuxièmement, il faut présumer que ces systèmes agiront parfois de façon inattendue, et que leur sécurité dépend donc étroitement de la solidité des garde-fous mis en place. »