Anthropicは、実際のデータセットを用いて専門家が設計した99のバイオインフォマティクスの質問を特徴とする新しいベンチマーク「BioMysteryBench」を発表しました。このベンチマークは、AnthropicのAIモデルであるClaudeが複雑なバイオインフォマティクスの問題を解決する能力を評価します。99の質問のうち、76は人間の専門家によって解決可能であり、23は最大5人のドメイン専門家でも未解決のままでした。Claude Opus 4.6は、人間が解決可能な質問に対して77.4%の正確さを達成し、Mythos Previewモデルはさらに改善しました。特に、Mythos Previewは人間にとって難しい質問の30%を解決しました。
Claudeの成功は、複数の論文の知識を活用し、複数の分析手法を同時に用いる能力に起因しています。しかし、信頼性分析では一貫性にギャップがあり、人間が解決可能な質問に対する正解の86%は試行を通じて安定しているのに対し、人間にとって難しい質問では44%にとどまっています。これはモデルの能力の限界を示しています。同時に、GenentechとRocheのCompBioBenchもこれらの結果を裏付けており、Claude Opus 4.6は全体で81%の正確さを達成し、最も難しい質問では69%の正確さを示しました。
AnthropicのClaude Mythosが複雑なバイオインフォマティクス課題の30%を解決
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
