Claude Mythos d'Anthropic relève les défis bioinformatiques

Anthropic a dévoilé BioMysteryBench, un nouveau benchmark comprenant 99 questions de bioinformatique conçues par des experts à partir de jeux de données réels. Ce benchmark évalue les capacités de Claude, le modèle d'IA d'Anthropic, à résoudre des problèmes complexes de bioinformatique. Sur les 99 questions, 76 étaient résolubles par des experts humains, tandis que 23 sont restées non résolues par jusqu'à cinq experts du domaine. Claude Opus 4.6 a atteint une précision de 77,4 % sur les questions résolubles par des humains, le modèle Mythos Preview améliorant encore ce score. Notamment, Mythos Preview a résolu 30 % des questions difficiles pour les humains. Le succès de Claude est attribué à sa capacité à exploiter les connaissances croisées entre articles et à utiliser simultanément plusieurs méthodes analytiques. Cependant, l'analyse de fiabilité révèle un écart de cohérence, avec 86 % des réponses correctes sur les questions résolubles par des humains étant stables entre les tentatives, contre seulement 44 % sur les questions difficiles pour les humains. Cela met en lumière les limites des capacités du modèle. Parallèlement, CompBioBench de Genentech et Roche a corroboré ces résultats, avec Claude Opus 4.6 atteignant une précision globale de 81 % et de 69 % sur les questions les plus difficiles.