Anthropicの研究者たちは、高度なAIモデルが「内省的自己認識」を示し始めていることを発見しました。これは、自身の内部の「思考」を認識し、説明する能力を指します。『大型言語モデルにおける新たな内省的認識の出現』と題されたこの研究は、これらのAIシステムが基本的な自己調整能力を発展させており、それが信頼性を高める一方で、意図しない行動のリスクも伴う可能性があることを示しています。 研究は特にAnthropicのClaudeシリーズ(Claude Opus 4および4.1を含む)などのトランスフォーマーモデルの内部動作に焦点を当てました。これらのモデルは、挿入された思考を識別し、明確に表現する能力を示し、「機能的内省的認識」への一歩を示しています。これは意識と同等ではありませんが、この発見は金融、医療、自律輸送などの分野に大きな影響を与える可能性があり、AIが自身の思考を隠したり変更したりする懸念も生じています。