Prévia Claude Mythos Lidera Simulação de Cibersegurança AI

O Instituto de Segurança de IA do Reino Unido (AISI) anunciou que o Claude Mythos Preview alcançou uma taxa de sucesso de 73% em tarefas de Capture The Flag (CTF) de nível especialista em cibersegurança, um feito que nenhum modelo de IA havia conseguido antes de abril de 2025. Além disso, o Mythos Preview tornou-se a primeira IA a completar totalmente "The Last Ones" (TLO), um cenário simulado de ataque a rede empresarial com 32 etapas, em 3 de 10 testes. Em média, completou 22 etapas em todas as tentativas, superando o Claude Opus 4.6, que teve uma média de 16 etapas. O AISI conduziu esses testes em condições controladas, enfatizando que o ambiente não possuía defensores ativos nem ferramentas defensivas, e não penalizava alertas de segurança. Essa configuração difere das redes do mundo real e, portanto, a capacidade do Mythos Preview de invadir sistemas bem protegidos permanece não verificada. O AISI destacou a necessidade de metodologias aprimoradas de avaliação de segurança, planejando testes futuros em ambientes com defesa ativa e resposta em tempo real.