Vista previa de Claude Mythos lidera simulación de ciberseguridad AI

El Instituto de Seguridad de IA del Reino Unido (AISI) ha anunciado que Claude Mythos Preview logró una tasa de éxito del 73 % en tareas de ciberseguridad Capture The Flag (CTF) a nivel experto, una hazaña que ningún modelo de IA había alcanzado antes de abril de 2025. Además, Mythos Preview se convirtió en la primera IA en completar completamente "The Last Ones" (TLO), un escenario simulado de ataque a una red empresarial de 32 pasos, en 3 de 10 pruebas. En promedio, completó 22 pasos en todos los intentos, superando a Claude Opus 4.6, que promedió 16 pasos. AISI realizó estas pruebas bajo condiciones controladas, enfatizando que el entorno carecía de defensores activos y herramientas defensivas, y no penalizaba las alertas de seguridad. Esta configuración difiere de las redes del mundo real y, por lo tanto, la capacidad de Mythos Preview para penetrar sistemas bien protegidos sigue sin verificarse. AISI destacó la necesidad de mejorar las metodologías de evaluación de seguridad, planeando futuras pruebas en entornos con defensa activa y respuesta en tiempo real.