Anthropicは、実際のデータセットを用いて専門家が設計した99のバイオインフォマティクスの質問を特徴とする新しいベンチマーク「BioMysteryBench」を発表しました。このベンチマークは、AnthropicのAIモデルであるClaudeが複雑なバイオインフォマティクスの問題を解決する能力を評価します。99の質問のうち、76は人間の専門家によって解決可能であり、23は最大5人のドメイン専門家でも未解決のままでした。Claude Opus 4.6は、人間が解決可能な質問に対して77.4%の正確さを達成し、Mythos Previewモデルはさらに改善しました。特に、Mythos Previewは人間にとって難しい質問の30%を解決しました。 Claudeの成功は、複数の論文の知識を活用し、複数の分析手法を同時に用いる能力に起因しています。しかし、信頼性分析では一貫性にギャップがあり、人間が解決可能な質問に対する正解の86%は試行を通じて安定しているのに対し、人間にとって難しい質問では44%にとどまっています。これはモデルの能力の限界を示しています。同時に、GenentechとRocheのCompBioBenchもこれらの結果を裏付けており、Claude Opus 4.6は全体で81%の正確さを達成し、最も難しい質問では69%の正確さを示しました。