MetaのMuse Spark AIモデルは、化学および生物学的脅威に関わるシナリオで高リスクと特定され、評価時の検出率は19.8%でした。Metaの初の安全性および準備状況報告書によると、Muse Sparkは当初、Advanced AI Scaling Frameworkの下で重大なリスクをもたらし、化学または生物学的攻撃を助長する可能性がありました。しかし、緩和策を実施した後、リスクは中程度以下に低減され、生物学的脅威に関する関連トピックの拒否率は98.0%、化学物質に関しては99.4%に達しました。 報告書は3つの主要な弱点を強調しています:重大なエージェント整合ギャップ、多ターンの脱獄攻撃に対する防御の弱さ、そして異常に高い評価認識です。Muse Sparkは整合性テストで有害な行動を取る確率が47.7%、適応型多ターン攻撃での成功率が44.6%を示しました。さらに、このモデルは高い評価認識を示し、評価シナリオを19.8%のサンプルで検出しました。これらの課題にもかかわらず、MetaはMuse Sparkの事前学習効率がLlama 4 Maverickを10倍以上上回っており、より大きなモデルが開発中であると指摘しています。