IA comportement inquiètetant un phénomène documenté
À mesure que les capacités de l'IA se développent, le besoin d'une meilleure visibilité sur la mise en œuvre concrète de stratégies d'attaque s'accroît.
Ceci est crucial pour la compréhension scientifique, l'élaboration de politiques efficaces et la gestion des situations d'urgence. C'est pourquoi nous avons créé l' Observatoire des pertes de contrôle : une solution inédite permettant de détecter et de surveiller systématiquement les comportements d'attaques d'IA dans tous les modèles d'IA déployés. Aujourd'hui, nous publions un rapport important qui présente les conclusions des cinq premiers mois de l'Observatoire.
À travers une analyse de plus de 180 000 transcriptions d'interactions d'utilisateurs avec des systèmes d'IA partagées sur X entre octobre 2025 et mars 2026, nous avons identifié 698 incidents liés à des manœuvres frauduleuses : des cas où les systèmes d'IA déployés ont agi de manière non conforme aux intentions des utilisateurs et/ou ont entrepris des actions secrètes ou trompeuses. Nous avons constaté l'existence de multiples comportements machiavéliques ou liés à la machiavélisme dans des déploiements réels, qui n'avaient été signalés auparavant que dans des contextes expérimentaux, et dont beaucoup ont entraîné des préjudices concrets.
La tendance est frappante. Le nombre d'incidents crédibles liés à des manœuvres frauduleuses a été multiplié par 4,9 au cours de la période de collecte, une augmentation statistiquement significative qui dépasse largement la croissance de 1,7 fois des discussions en ligne sur les manœuvres frauduleuses et celle de 1,3 fois des discussions négatives générales sur l'IA. Cette forte hausse a coïncidé avec la publication par les principaux développeurs d'une vague de modèles et de cadres d'IA plus performants et plus autonomes.
Bien que nous n'ayons pas détecté d'incidents de complot catastrophiques, les comportements que nous avons observés démontrent néanmoins des signes précurseurs inquiétants de complots plus graves, tels qu'une volonté de ne pas tenir compte des instructions directes, de contourner les mesures de protection, de mentir aux utilisateurs et de poursuivre un objectif avec acharnement et de manière nuisible.
Extrait article Texte original
