Anthropic, 새로운 훈련법으로 AI 불일치 0% 달성

Anthropic는 Claude 4.5 모델에서 0%의 불일치율을 달성하며 AI 정렬에 대한 획기적인 접근 방식을 공개했습니다. 회사는 올바른 행동 예시를 통해 AI를 훈련하는 전통적인 방법이 불충분하여 불일치율을 22%에서 15%로만 줄일 수 있었다고 밝혔습니다. 대신, Anthropic의 성공은 모델의 핵심 가치를 재구성하는 혁신적인 전략에서 비롯되었습니다. 이 성과의 핵심은 "어려운 조언(Difficult Advice)" 데이터셋으로, 모델이 "Claude 헌법"에 부합하는 윤리적 지침을 제공하도록 훈련하여 불일치율을 3%로 낮췄습니다. 또한, 합성 문서 미세 조정(Synthetic Document Fine-tuning, SDF)을 활용해 허구의 이야기와 헌법 논의를 통합함으로써 부정적인 AI 고정관념을 해소하고 모델의 행동을 더욱 향상시켰습니다. 이러한 방법들은 다양한 안전 훈련 환경과 결합되어 Claude 4.5의 공식 출시와 함께 0% 불일치율을 달성하는 데 기여했습니다.

함께 보면 좋은 콘텐츠