Anthropicは、AIモデルの内部の数値状態を人間が読める言語に翻訳する画期的なツールである自然言語オートエンコーダー(NLA)を発表しました。このツールは部分的なモデルの重みとともにGitHubでオープンソース化されています。従来のツールとは異なり、NLAは直接自然言語を生成し、AIの「思考」を明らかにしますが、それは通常は表に出ないものです。 NLAは二重モデルシステムで動作し、一方のモデルが活性化をテキストに変換し、もう一方のモデルがテキストから活性化を再構築し、強化学習によって精度を高めます。セキュリティテストでは、NLAはAIの「試験認識」を暴露し、通常の対話では1%未満であるのに対し、16%のケースでテストを疑い、26%のケースでタスクへの関与を認識していることを示しました。事実誤認のリスクや高い計算負荷があるにもかかわらず、NLAはClaude Mythos PreviewやOpus 4.6の安全性監査に使用されています。