Anthropicは、AIの整合性に関する画期的なアプローチを発表し、Claude 4.5モデルで誤整合率0%を達成しました。同社は、正しい行動の例を用いた従来のAIトレーニング方法が不十分であり、誤整合率を22%からわずか15%にしか減らせなかったことを明らかにしました。代わりに、Anthropicの成功はモデルの核心的価値観を再構築する革新的な戦略によるものでした。 この成果の鍵となったのは「Difficult Advice」データセットで、モデルに「Claude憲法」に沿った倫理的指導を提供するよう訓練し、誤整合率を3%にまで減少させました。さらに、合成文書ファインチューニング(SDF)を用いて、架空の物語や憲法に関する議論を統合し、AIの否定的なステレオタイプに対抗し、モデルの挙動をさらに向上させました。これらの方法は、多様な安全性トレーニング環境と組み合わされ、Claude 4.5の公式リリースにおいて誤整合率0%を実現しました。