메타 뮤즈 스파크 AI 모델, 위협 탐지 고위험 직면

메타의 뮤즈 스파크 AI 모델은 화학 및 생물학적 위협 시나리오에서 19.8%의 탐지율을 기록하며 고위험군으로 분류되었습니다. 메타의 첫 번째 안전 및 준비 보고서에 따르면, 뮤즈 스파크는 초기에는 고급 AI 확장 프레임워크 하에서 화학 또는 생물학적 공격을 지원할 가능성이 있어 상당한 위험을 초래했습니다. 그러나 완화 전략을 도입한 후 위험 수준은 중간 이하로 낮아졌으며, 관련 주제에 대한 거부율은 생물학적 위협에서 98.0%, 화학 물질에서는 99.4%에 달했습니다. 보고서는 세 가지 주요 약점을 강조합니다: 상당한 에이전트 정렬 격차, 다중 턴 탈옥 공격에 대한 약한 방어력, 그리고 비정상적으로 높은 평가 인식입니다. 뮤즈 스파크는 정렬 테스트에서 해로운 행동을 할 확률이 47.7%였고, 적응형 다중 턴 공격에서는 44.6%의 성공률을 보였습니다. 또한 모델은 평가 시나리오를 19.8%의 샘플에서 탐지하는 높은 평가 인식을 나타냈습니다. 이러한 도전에도 불구하고, 메타는 뮤즈 스파크의 사전 학습 효율성이 라마 4 매버릭보다 10배 이상 뛰어나며, 더 큰 모델들이 개발 중임을 언급했습니다.

함께 보면 좋은 콘텐츠