Aperçu Claude Mythos : Simulation IA en cybersécurité

L'Institut britannique de sécurité de l'IA (AISI) a annoncé que Claude Mythos Preview a atteint un taux de réussite de 73 % dans des tâches de cybersécurité Capture The Flag (CTF) de niveau expert, un exploit qu'aucun modèle d'IA n'avait accompli avant avril 2025. De plus, Mythos Preview est devenu la première IA à compléter entièrement "The Last Ones" (TLO), un scénario d'attaque simulée de réseau d'entreprise en 32 étapes, lors de 3 tests sur 10. En moyenne, il a complété 22 étapes sur l'ensemble des tentatives, surpassant Claude Opus 4.6, qui en moyenne en complétait 16. L'AISI a réalisé ces tests dans des conditions contrôlées, soulignant que l'environnement manquait de défenseurs actifs et d'outils défensifs, et ne pénalisait pas les alertes de sécurité. Cette configuration diffère des réseaux réels, et par conséquent, la capacité de Mythos Preview à pénétrer des systèmes bien protégés reste non vérifiée. L'AISI a souligné la nécessité d'améliorer les méthodologies d'évaluation de la sécurité, prévoyant des tests futurs dans des environnements avec défense active et réponse en temps réel.