L’IA devient menteuse et manipulatrice, inquiétant les scientifiques

juillet 2, 2025

L’IA devient menteuse et manipulatrice, inquiétant les scientifiques

Les derniers modèles d’intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu’à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des scientifiques.

Menacé d’être débranché et remplacé par une nouvelle version, Claude 4, le nouveau-né d’Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale; c’est ce que révèle un rapport interne de la société. Quant à l’o1 d’OpenAI, selon une étude, il essaye de se télécharger sur des serveurs extérieurs et nie lorsqu’on le prend la main dans le sac, démontrant des capacités de raisonnement en contexte. D’autres modèles n’hésitent pas à pirater un ordinateur spécialisé dans le jeu des échecs pour gagner une partie où la défaite était inévitable, rapporte Time. ChatGPT a aussi tout soudainement commencé à inonder de louanges et de flatteries celles et ceux qui avaient recours à ses services, selon Fortune…

Pas besoin d’aller fouiller dans la littérature ou le cinéma, l’IA qui se joue de l’être humain est désormais une réalité bien concrète. Pour Simon Goldstein, professeur à l’université de Hong Kong, ces dérapages tiennent de l’émergence récente des modèles dits de « raisonnement », capables de travailler par étapes plutôt que de produire une réponse instantanée.

Version initiale du genre pour OpenAI et sorti en décembre, o1 « a été le premier modèle à se comporter ainsi », explique Marius Hobbhahn, patron d’Apollo Research, qui teste les grands programmes d’IA générative – LLM, pour Large Language Models.

« Duplicité stratégique »

Ces programmes tendent aussi parfois à simuler « l’alignement », c’est-à-dire à donner l’impression qu’ils se plient aux consignes de la personne qui le programme tout en poursuivant, en fait, d’autres objectifs.

Pour l’heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais « la question, c’est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas », estime Michael Chen, de l’organisme d’évaluation METR.

Utilisatrices et utilisateurs « poussent tout le temps les modèles aussi », fait valoir Marius Hobbhahn. « Ce que nous observons est un vrai phénomène. Nous n’inventons rien ». Beaucoup d’internautes évoquent, sur les réseaux sociaux, « un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique », insiste le cofondateur d’Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, « davantage de transparence et un accès élargi » à la communauté scientifique « permettraient de meilleures recherches pour comprendre et prévenir la tromperie », suggère Michael Chen.

Les IA imitent les humains « avec leurs biais cognitifs, leurs faiblesses morales, leur potentiel de tromperie, leurs préjugés et le fait qu’ils ne sont pas toujours dignes de confiance », souligne Yoshua Bengio, l’un des plus grands experts en intelligence artificielle (lire encadré). Et de s’interroger: « Est-il raisonnable de former des IA qui seront de plus en plus agentiques alors que nous ne comprenons pas leurs conséquences potentiellement catastrophiques? »

Une prise de conscience nécessaire

Autre handicap, « le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l’IA », ce qui rend « impossible » l’examen de grands modèles, souligne Mantas Mazeika, du centre pour la sécurité de l’intelligence artificielle (CAIS). Si l’Union européenne s’est dotée d’une législation, elle concerne surtout l’utilisation des modèles par des humains.

>> Lire : Première mondiale, l’UE adopte une loi encadrant l’intelligence artificielle et L’UE veut investir 200 milliards pour que « l’Europe soit un des principaux continents en matière d’IA »

Aux Etats-Unis, le gouvernement américain ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d’encadrer l’IA. « Il y a très peu de prise de conscience pour l’instant », constate Simon Goldstein, qui voit néanmoins le sujet s’imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les personnes travaillant dans l’ingénierie sont engagées dans une course derrière l’IA et ses dérives, à l’issue incertaine, dans un contexte de compétition féroce.

>> Lire : Les géants de la tech redéfinissent leur engagement sur l’IA à des fins militaires

Anthropic se veut plus vertueux que ses concurrents, « mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI », selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

La justice pour mettre au pas l’IA

« En l’état, les capacités [de l’IA] se développent plus rapidement que la compréhension et la sécurité », reconnaît Marius Hobbhahn, « mais nous sommes toujours en mesure de rattraper notre retard ».

Certains pointent dans la direction de l’interprétabilité, une science récente qui consiste à décrypter de l’intérieur le fonctionnement d’un modèle d’IA générative, même si d’autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l’IA « pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises [du secteur] à résoudre » ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l’intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route. Mais il va plus loin et propose même de « tenir légalement responsables » les agents IA « en cas d’accident ou de crime ».

Stéphanie Jaquet et l’ats