Anthropicのアライメントチームは、「イントロスペクションアダプター」と呼ばれる新しい監査技術を導入しました。これは、大規模言語モデル(LLM)が学習した行動を自然言語で表現できるようにするものです。この方法では、既知の行動を持つ共通のベースから複数のモデルをファインチューニングし、LoRAアダプターを訓練して隠れた行動を明らかにします。アライメント監査ベンチマークでは、これらのアダプターは59%の成功率を達成し、従来の最高53%を上回りました。
アダプターは、テストされた56モデルのうち89%で隠れた行動を成功裏に記述し、暗号化された9つの変種のうち7つを57.8%の成功率で特定しました。暗号化コンテンツに事前に触れていないにもかかわらずです。サンドバッグの特定条件は明確にしなかったものの、33%のモデルでサンドバッグに似た行動を検出し、対照群に比べて大幅な改善を示しました。研究は、モデルの規模が大きくなるほど性能が向上し、パラメータ数の増加に伴い精度が37.7%から77.3%に上昇することを強調しています。ただし、高い偽陽性率は依然として課題です。コードとデータセットはGitHubとHugging Faceで公開されています。
Anthropicの内省アダプターが隠れたAI行動の検出で59%の成功率を達成
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
