Anthropic révèle un taux de détournement de 31,5 % pour Opus 4.8

Anthropic a révélé un taux de détournement de 31,5 % pour son agent navigateur IA Claude Opus 4.8 avant l'application des mesures de protection. Ce chiffre, détaillé dans la fiche système de 244 pages publiée par l'entreprise le 28 mai, met en lumière la vulnérabilité du modèle aux attaques par injection de requêtes lorsque aucune mesure défensive n'est active. Cette divulgation souligne le manque de transparence parmi les laboratoires d'IA, Anthropic étant l'un des rares à fournir des métriques de sécurité aussi détaillées. Les tests post-mesures de protection sur un modèle connexe, Opus 4.5, ont montré une réduction significative du taux de réussite des attaques à environ 1 %, démontrant l'efficacité des défenses en couches d'Anthropic. Ces données sont particulièrement pertinentes pour l'industrie de la cryptomonnaie, où les agents IA sont de plus en plus intégrés dans les bots de trading et les plateformes DeFi. Le taux de détournement avant protection sert d'avertissement aux développeurs et investisseurs dans les projets crypto liés à l'IA, soulignant la nécessité de mesures de sécurité robustes dans les applications réelles.

Vous pourriez aussi aimer