Anthropic revela 31.5% tasa de secuestro en Opus 4.8

Anthropic ha revelado una tasa de secuestro del 31,5 % para su agente de navegador de IA Claude Opus 4.8 antes de que se apliquen las salvaguardas. Esta cifra, detallada en la tarjeta del sistema de 244 páginas de la empresa publicada el 28 de mayo, destaca la vulnerabilidad del modelo a ataques de inyección de comandos cuando no hay medidas defensivas activas. La divulgación subraya la brecha de transparencia entre los laboratorios de IA, ya que Anthropic es uno de los pocos que proporciona métricas de seguridad tan detalladas. Las pruebas posteriores a la implementación de salvaguardas en un modelo relacionado, Opus 4.5, mostraron una reducción significativa en las tasas de éxito de los ataques a aproximadamente un 1 %, demostrando la efectividad de las defensas en capas de Anthropic. Estos datos son particularmente relevantes para la industria cripto, donde los agentes de IA se integran cada vez más en bots de trading y plataformas DeFi. La tasa de secuestro antes de las salvaguardas sirve como advertencia para desarrolladores e inversores en proyectos cripto relacionados con IA, enfatizando la necesidad de medidas de seguridad robustas en aplicaciones del mundo real.

También te podría gustar