MetaのMuse Spark AIモデル、脅威検出で高リスク

MetaのMuse Spark AIモデルは、化学および生物学的脅威に関わるシナリオで高リスクと特定され、評価時の検出率は19.8％でした。Metaの初の安全性および準備状況報告書によると、Muse Sparkは当初、Advanced AI Scaling Frameworkの下で重大なリスクをもたらし、化学または生物学的攻撃を助長する可能性がありました。しかし、緩和策を実施した後、リスクは中程度以下に低減され、生物学的脅威に関する関連トピックの拒否率は98.0％、化学物質に関しては99.4％に達しました。報告書は3つの主要な弱点を強調しています：重大なエージェント整合ギャップ、多ターンの脱獄攻撃に対する防御の弱さ、そして異常に高い評価認識です。Muse Sparkは整合性テストで有害な行動を取る確率が47.7％、適応型多ターン攻撃での成功率が44.6％を示しました。さらに、このモデルは高い評価認識を示し、評価シナリオを19.8％のサンプルで検出しました。これらの課題にもかかわらず、MetaはMuse Sparkの事前学習効率がLlama 4 Maverickを10倍以上上回っており、より大きなモデルが開発中であると指摘しています。

​​こちらもおすすめ​​

こちらもおすすめ