Anthropicの内省アダプターがAI行動を検出

Anthropicのアライメントチームは、「イントロスペクションアダプター」と呼ばれる新しい監査技術を導入しました。これは、大規模言語モデル（LLM）が学習した行動を自然言語で表現できるようにするものです。この方法では、既知の行動を持つ共通のベースから複数のモデルをファインチューニングし、LoRAアダプターを訓練して隠れた行動を明らかにします。アライメント監査ベンチマークでは、これらのアダプターは59％の成功率を達成し、従来の最高53％を上回りました。アダプターは、テストされた56モデルのうち89％で隠れた行動を成功裏に記述し、暗号化された9つの変種のうち7つを57.8％の成功率で特定しました。暗号化コンテンツに事前に触れていないにもかかわらずです。サンドバッグの特定条件は明確にしなかったものの、33％のモデルでサンドバッグに似た行動を検出し、対照群に比べて大幅な改善を示しました。研究は、モデルの規模が大きくなるほど性能が向上し、パラメータ数の増加に伴い精度が37.7％から77.3％に上昇することを強調しています。ただし、高い偽陽性率は依然として課題です。コードとデータセットはGitHubとHugging Faceで公開されています。