Anthropic revela taxa de 31,5% de sequestro no Opus 4.8

A Anthropic revelou uma taxa de sequestro de 31,5% para seu agente de navegador de IA Claude Opus 4.8 antes da aplicação de salvaguardas. Esse número, detalhado no cartão do sistema de 244 páginas da empresa, lançado em 28 de maio, destaca a vulnerabilidade do modelo a ataques de injeção de prompt quando nenhuma medida defensiva está ativa. A divulgação ressalta a lacuna de transparência entre os laboratórios de IA, já que a Anthropic é uma das poucas a fornecer métricas de segurança tão detalhadas. Os testes pós-salvaguarda em um modelo relacionado, Opus 4.5, mostraram uma redução significativa nas taxas de sucesso dos ataques para aproximadamente 1%, demonstrando a eficácia das defesas em camadas da Anthropic. Esses dados são particularmente relevantes para a indústria de criptomoedas, onde agentes de IA estão cada vez mais integrados em bots de negociação e plataformas DeFi. A taxa de sequestro pré-salvaguarda serve como um alerta para desenvolvedores e investidores em projetos cripto adjacentes à IA, enfatizando a necessidade de medidas de segurança robustas em aplicações do mundo real.

Você também pode gostar