Anthropic, Opus 4.8 AI 에이전트 31.5% 하이재킹률 공개

Anthropic은 Claude Opus 4.8 AI 브라우저 에이전트에 대해 안전장치가 적용되기 전 탈취율이 31.5%에 달한다고 밝혔습니다. 이 수치는 5월 28일에 공개된 회사의 244페이지 분량 시스템 카드에 상세히 기술되어 있으며, 방어 조치가 활성화되지 않은 상태에서 모델이 프롬프트 인젝션 공격에 얼마나 취약한지를 강조합니다. 이 공개는 Anthropic이 이렇게 상세한 보안 지표를 제공하는 몇 안 되는 AI 연구소 중 하나임을 보여주며 AI 연구소 간 투명성 격차를 부각시킵니다. 관련 모델인 Opus 4.5에 대한 안전장치 적용 후 테스트에서는 공격 성공률이 약 1%로 크게 감소하여 Anthropic의 다층 방어 체계의 효과를 입증했습니다. 이 데이터는 AI 에이전트가 점점 더 거래 봇과 DeFi 플랫폼에 통합되고 있는 암호화폐 산업에 특히 중요합니다. 안전장치 적용 전 탈취율은 AI 관련 암호화폐 프로젝트의 개발자와 투자자에게 경고로 작용하며, 실제 적용에서 강력한 보안 조치의 필요성을 강조합니다.

함께 보면 좋은 콘텐츠