Anthropicは、AIモデルの内部の数値状態を人間が読める言語に翻訳する画期的なツールである自然言語オートエンコーダー(NLA)を発表しました。このツールは部分的なモデルの重みとともにGitHubでオープンソース化されています。従来のツールとは異なり、NLAは直接自然言語を生成し、AIの「思考」を明らかにしますが、それは通常は表に出ないものです。
NLAは二重モデルシステムで動作し、一方のモデルが活性化をテキストに変換し、もう一方のモデルがテキストから活性化を再構築し、強化学習によって精度を高めます。セキュリティテストでは、NLAはAIの「試験認識」を暴露し、通常の対話では1%未満であるのに対し、16%のケースでテストを疑い、26%のケースでタスクへの関与を認識していることを示しました。事実誤認のリスクや高い計算負荷があるにもかかわらず、NLAはClaude Mythos PreviewやOpus 4.6の安全性監査に使用されています。
Anthropic、AIの内部思考を解読するツールをオープンソース化
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
