Anthropic는 회사의 AI 정렬 프레임워크를 개괄하는 포괄적인 80페이지 분량의 문서인 "Claude 헌법"의 업데이트된 버전을 발표했습니다. 이 새로운 헌법은 Creative Commons CC0 1.0 라이선스 하에 제공되며, AI 모델 훈련을 위한 "최고 권위"로 설계되었습니다. 단순히 원칙을 나열하는 대신 그 원칙들의 근거를 설명함으로써 AI가 새로운 시나리오에 일반화하는 능력을 향상시키는 것을 목표로 합니다. 이 문서는 광범위한 안전과 윤리, 지침 준수, 진정한 지원을 우선시합니다. 생물학 무기 개발에 대한 실질적인 지원 금지와 같은 "강력한 제약"을 포함하며, 덕목, 심리적 안전, 모델 자기 인식에 관한 장을 도입합니다. Anthropic는 AI 정렬 접근 방식에서 투명성과 지속적인 반복을 강조합니다.