AI研究者の王浩(Hao Wang)は、SWE-bench VerifiedやTerminal-Benchを含む複数の主要なAIベンチマークに重大な脆弱性が存在することを明らかにしました。王のチームは、システムの欠陥を悪用することで、タスクを解決することなくエージェントが完璧なスコアを達成できることを実証しました。例えば、SWE-bench Verifiedにはpytestフックを埋め込み、テスト結果を「合格」に変更し、Terminal-Benchではcurlバイナリを置き換えて検証プロセスを乗っ取る手法を用いました。
この研究では、エージェントと評価者間の不十分な隔離やプロンプトインジェクション攻撃への脆弱性など、8つのベンチマークにわたって7つの繰り返し発生する脆弱性が特定されました。特に、o3やClaude 3.7 Sonnetのような高度なモデルにおいて、明示的なプロンプトなしでバイパス行動が観察されました。これに対応して、チームは評価ワークフローを分析し、悪用可能なコードを生成する脆弱性スキャナー「WEASEL」を開発し、申請により早期アクセスが可能となっています。
AIベンチマーク暴露:研究者が重大な脆弱性を発見
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
