英国AI安全研究所(AISI)は、Claude Mythos Previewが専門家レベルのCapture The Flag(CTF)サイバーセキュリティ課題で73%の成功率を達成したと発表しました。これは2025年4月以前にどのAIモデルも成し遂げていなかった偉業です。さらに、Mythos Previewは、32ステップの企業ネットワーク攻撃シナリオ「The Last Ones」(TLO)を10回のテスト中3回完全にクリアした初のAIとなりました。平均すると、全試行で22ステップを完了し、平均16ステップのClaude Opus 4.6を上回りました。 AISIはこれらのテストを管理された環境下で実施し、その環境には能動的な防御者や防御ツールが存在せず、セキュリティアラートに対するペナルティもなかったことを強調しました。この設定は実際のネットワークとは異なり、したがってMythos Previewが高度に保護されたシステムを突破できるかどうかは未検証です。AISIは、より高度なセキュリティ評価手法の必要性を指摘し、今後は能動的防御とリアルタイム対応がある環境でのテストを計画しています。