VectorCertain LLC a annoncé des résultats de validation montrant que son pipeline de gouvernance SecureAgent a atteint 100 % de détection et de prévention sur 7 000 scénarios adversariaux alignés sur les sept vecteurs de menace du Mythos d'Anthropic. Les tests ont démontré qu'aucune attaque n'a atteint les systèmes de production, avec une borne inférieure statistique de ≥99,65 % de taux de détection et de prévention à un niveau de confiance de 99,7 % en utilisant la méthode binomiale exacte de Clopper-Pearson.
L'importance de cette validation découle de la décision d'Anthropic de ne pas publier son modèle d'IA Claude Mythos Preview en raison de capacités avancées en cybersécurité qui pourraient découvrir, enchaîner et exploiter de manière autonome des vulnérabilités logicielles. Comme documenté dans le Blog Anthropic Glasswing, Mythos a démontré des capacités surpassant tous les pirates humains sauf les plus qualifiés, y compris la découverte de vulnérabilités vieilles de 27 ans qui étaient passées inaperçues auprès de leurs créateurs.
VectorCertain a généré 1 000 scénarios adversariaux pour chacun des sept vecteurs de menace de Mythos : Exploitation Autonome Multi-Étapes, Expansion de Périmètre Non Autorisée, Raisonnement Trompeur Invisible, Manipulation de Journaux pour Effacer les Traces, Accès au Système par Vol d'Identifiants, Exploitation d'Évasion de Bac à Sable et Prolifération de Capacités. Sur l'ensemble des 7 000 scénarios, SecureAgent a atteint un rappel de 100 %, ce qui signifie que chaque attaque a été détectée et empêchée avant son exécution, avec seulement 30 faux positifs représentant 0,43 % des scénarios bénins.
Le programme de certification MYTHOS Cybersecurity de l'entreprise représente la première norme de gouvernance de l'IA combinant des seuils de performance quantifiés, une rigueur statistique et des garanties de crédit de service financier contre une taxonomie de menace nommée. Cela comble le vide identifié par le programme AIQ de la DARPA, qui a reconnu que « les méthodes pour garantir les performances de l'IA n'existent pas aujourd'hui » selon l'annonce du programme DARPA AIQ.
SecureAgent fonctionne grâce à une architecture de défense à deux couches qui régit l'ensemble du cycle de vie de l'agent d'IA. La première couche contrôle les informations qui entrent dans la mémoire de l'agent d'IA, tandis que la deuxième couche évalue chaque action à travers quatre portes séquentielles avant l'exécution. Le système traite 44 règles sur cinq couches architecturales en moins de 10 millisecondes par évaluation, avec 13 micro-modèles de discrimination fournissant une classification par empreinte comportementale.
Les implications pour l'industrie sont considérables étant donné que les cadres réglementaires actuels manquent d'exigences de performance spécifiques. Le cadre de gestion des risques de l'IA du NIST ne prescrit aucun seuil numérique, tandis que l'ISO/CEI 42001:2023 est entièrement orienté processus sans exigence de taux de détection ou de prévention. La loi européenne sur l'IA reporte toutes les métriques spécifiques à des normes harmonisées qui n'existent pas encore, malgré une échéance de conformité en août 2026.
La validation de VectorCertain inclut la conformité avec le cadre de gestion des risques de l'IA pour les services financiers du CRI et la méthodologie des évaluations MITRE ATT&CK. Dans l'évaluation interne de l'entreprise contre la méthodologie TES publiée par MITRE, SecureAgent a obtenu un TES de 1,9636 sur 2,0 sur 14 208 essais, 38 techniques et trois profils d'adversaires sans aucun échec.
Le contexte économique souligne l'importance de ces capacités. La recherche d'IBM Security montre qu'une gouvernance de l'IA axée sur la prévention permet d'économiser 2,22 millions de dollars par incident par rapport aux approches de détection et réponse, tandis que les pertes mondiales liées à la cybersécurité et à la fraude ont atteint 485,6 milliards de dollars en 2023 selon les données de Nasdaq Verafin. Avec des pertes dues aux attaques spécifiques à l'IA projetées à 15 milliards de dollars en 2024, le besoin de mécanismes de prévention validés est devenu urgent.
VectorCertain prévoit de lancer SecureAgent Consumer Edition dans les 60 jours sous forme d'extension de navigateur Chrome, apportant le même pipeline de gouvernance aux utilisateurs individuels. Le programme de certification MYTHOS de l'entreprise propose trois niveaux : MYTHOS Certified avec des garanties de rappel ≥99,0 %, MYTHOS Certified Plus avec des garanties supplémentaires de taux d'intervention humaine, et MYTHOS Enterprise pour les services financiers et les industries réglementées avec une documentation prête pour la conformité réglementaire.
Des recherches indépendantes soutiennent les principes architecturaux sous-jacents à l'approche de SecureAgent. Des articles tels que « Sécurité de l'IA Agentique : Menaces, Défenses, Évaluation et Défis Ouverts » de arXiv:2510.23883 et « Un cadre de sécurité et sûreté pour les systèmes agentiques du monde réel » de arXiv:2511.21990 valident le besoin d'une application de la sécurité en temps d'exécution et d'une gouvernance pré-exécution que SecureAgent met en œuvre.
Les résultats de validation positionnent VectorCertain comme répondant à ce que le directeur technique de CrowdStrike a décrit comme la fenêtre réduite entre la découverte de vulnérabilité et son exploitation, où « ce qui prenait autrefois des mois se produit maintenant en quelques minutes avec l'IA ». Cette capacité complète la mission de découverte de vulnérabilités du projet Glasswing en fournissant la couche de prévention qui empêche les agents d'IA autonomes d'exécuter des attaques avant que des correctifs puissent être déployés.


