Anthropic、新AIアライメントフレームワーク公開

Anthropicは、同社のAI整合性フレームワークを概説した包括的な80ページの文書「Claude憲法」の更新版を公開しました。この新しい憲法は、クリエイティブ・コモンズCC0 1.0ライセンスの下で提供されており、AIモデルのトレーニングにおける「最高権威」として機能することを目的としています。単に原則を列挙するのではなく、その背後にある理論的根拠を説明することで、AIの新しいシナリオへの一般化能力を向上させることを目指しています。この文書は、広範な安全性と倫理、ガイドラインの遵守、そして真の支援を優先しています。生物兵器開発への実質的な支援を禁止する「厳格な制約」などを含み、美徳、心理的安全性、モデルの自己認識に関する章も導入しています。Anthropicは、AI整合性へのアプローチにおいて透明性と継続的な反復を重視しています。