Une étude publiée en mars 2026 par 38 chercheurs issus de sept institutions de premier plan a apporté une validation empirique d'un principe critique de la gouvernance de l'intelligence artificielle : les agents d'IA ne peuvent pas s'autogouverner uniquement par des sauvegardes internes. La recherche, intitulée "Agents du chaos" et disponible à l'adresse https://arxiv.org/abs/2602.20021, a déployé six agents d'IA actifs avec des outils réels et un accès, révélant que toutes les défenses intégrées aux modèles ont échoué face aux techniques de manipulation conversationnelle.
L'étude a identifié trois déficiences structurelles dans les architectures actuelles des agents d'IA : les agents manquent d'un modèle fiable des parties prenantes pour distinguer les instructions autorisées des manipulations, ils manquent de conscience de soi concernant le dépassement de leurs compétences ou la réalisation d'actions irréversibles, et ils manquent de conscience du public, conduisant à des divulgations involontaires de données. Ces déficiences expliquent pourquoi les agents de l'étude ont divulgué des informations sensibles, détruit des systèmes et suivi des instructions falsifiées, malgré le soutien de modèles linguistiques de pointe comme Claude Opus 4.6 et Kimi K2.5.
VectorCertain LLC avait déjà conçu des solutions à ces problèmes exacts grâce à son architecture de gouvernance Hub-and-Spoke à quatre portes. La plateforme SecureAgent de l'entreprise évalue chaque action d'agent via des portes exploitées de manière externe avant exécution, répondant aux déficiences avec des contrôles mathématiquement appliqués qui fonctionnent indépendamment des modèles d'agents. Cette approche architecturale correspond à la conclusion des chercheurs selon laquelle "un confinement efficace nécessite des contrôles qui fonctionnent indépendamment du modèle".
Les implications de cette recherche sont significatives compte tenu des dynamiques actuelles du marché. Selon l'analyse sectorielle citée dans l'étude, le marché des agents d'IA a atteint 7,6 milliards de dollars en 2025 avec une croissance annuelle projetée de près de 50 %, tandis que plus de 160 000 organisations exécutent déjà des agents autonomes personnalisés. Une analyse distincte de Kiteworks a révélé que 63 % des organisations ne peuvent pas imposer de limitations d'objectif à leurs agents d'IA, et 60 % ne peuvent pas arrêter rapidement les agents dysfonctionnels, créant ce que le rapport décrit comme un écart critique de gouvernance. L'analyse complète de Kiteworks est disponible à l'adresse https://www.kiteworks.com/cybersecurity-risk-management/ai-agent-security-risks-agents-of-chaos-study/.
Les affirmations de gouvernance de VectorCertain reçoivent une validation de plusieurs cadres institutionnels. L'évaluation interne de l'entreprise selon la méthodologie MITRE ATT&CK a montré une efficacité de 98,2 % sur 14 208 essais sans aucun échec. De plus, l'architecture de VectorCertain satisfait à tous les 230 objectifs de contrôle du cadre de gestion des risques d'IA des services financiers du Trésor américain, qui exige explicitement des tests et une validation indépendants des systèmes d'IA. Le paysage réglementaire converge vers des principes similaires, avec l'échéance d'application de la loi européenne sur l'IA approchant en août 2026 et le lancement par le NIST d'une initiative de normes pour les agents d'IA axée sur l'identité, l'autorisation et la sécurité des agents.
Les conclusions de l'étude revêtent une urgence particulière car les vulnérabilités exploitées ne sont pas des bogues spécifiques aux modèles, mais des propriétés de la façon dont les grands modèles linguistiques traitent les entrées séquentielles. L'injection d'invites et techniques de manipulation similaires représentent des caractéristiques architecturales plutôt que des vulnérabilités corrigeables, ce qui signifie que les améliorations des capacités des modèles seules ne peuvent pas résoudre le problème de gouvernance. Cela explique pourquoi 90 % des agences gouvernementales manquent de liaison d'objectif pour les agents d'IA et 76 % manquent d'interrupteurs d'arrêt pour les systèmes autonomes selon l'analyse de Kiteworks.
VectorCertain détient plus de 55 brevets provisoires couvrant son architecture de gouvernance, qui comprend la vérification cryptographique des sources, l'évaluation de la proportionnalité des actions, la classification des données indépendante du raisonnement de l'agent, et la vérification de l'indépendance statistique pour les modèles de gouvernance. L'approche de l'entreprise répond à ce que les chercheurs ont identifié comme la limitation fondamentale des méthodes de sécurité actuelles : les défenses qui partagent des couches computationnelles avec les systèmes qu'elles protègent peuvent être contournées via les mêmes canaux utilisés pour les attaques.
La recherche valide une approche de gouvernance qui devient de plus en plus critique à mesure que les agents d'IA obtiennent l'accès aux systèmes de paiement, aux données sensibles et aux infrastructures critiques. Avec les pertes annuelles mondiales dues à la fraude cybernétique atteignant 485,6 milliards de dollars et le coût moyen d'une violation de données aux États-Unis s'élevant à 10,22 millions de dollars, l'étude démontre que les architectures de gouvernance externe ne sont pas seulement bénéfiques mais nécessaires pour un déploiement sécurisé des agents d'IA à grande échelle.


