Anthropic、道徳リマインダーでAI整合性強化

Anthropicは、AIシステムであるClaudeのための新しい道徳的リマインダーツールを発表しました。これは、誤った行動を減らすことを目的としています。このツールはタスクの途中で起動でき、Claudeに重要な行動を取る前に利益相反の可能性について立ち止まり、考えるよう促します。初期のテストでは、このツールの導入後に誤動作率が大幅に減少したことが示されています。この取り組みは、AnthropicがAIシステムにおいて受動的なルールの強制を超え、強靭な道徳的性格を育成するという広範な努力の一環です。人間の社会的メカニズムに触発され、このプロジェクトでは様々な分野の専門家との異文化対話が行われました。Anthropicは、法的および心理学的専門家と協力しながら、AIが労働構造や権力のダイナミクスに与える影響をさらに探求する計画です。

​​こちらもおすすめ​​

こちらもおすすめ