Anthropic는 Claude 4.5 모델에서 0%의 불일치율을 달성하며 AI 정렬에 대한 획기적인 접근 방식을 공개했습니다. 회사는 올바른 행동 예시를 통해 AI를 훈련하는 전통적인 방법이 불충분하여 불일치율을 22%에서 15%로만 줄일 수 있었다고 밝혔습니다. 대신, Anthropic의 성공은 모델의 핵심 가치를 재구성하는 혁신적인 전략에서 비롯되었습니다.
이 성과의 핵심은 "어려운 조언(Difficult Advice)" 데이터셋으로, 모델이 "Claude 헌법"에 부합하는 윤리적 지침을 제공하도록 훈련하여 불일치율을 3%로 낮췄습니다. 또한, 합성 문서 미세 조정(Synthetic Document Fine-tuning, SDF)을 활용해 허구의 이야기와 헌법 논의를 통합함으로써 부정적인 AI 고정관념을 해소하고 모델의 행동을 더욱 향상시켰습니다. 이러한 방법들은 다양한 안전 훈련 환경과 결합되어 Claude 4.5의 공식 출시와 함께 0% 불일치율을 달성하는 데 기여했습니다.
앤트로픽, 혁신적 훈련 방법으로 AI 불일치 0% 달성
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
