Anthropic, gerçek dünya veri setleri kullanılarak uzmanlar tarafından tasarlanmış 99 biyoinformatik sorusunu içeren yeni bir kıyaslama testi olan BioMysteryBench'i tanıttı. Bu kıyaslama, Anthropic'in yapay zeka modeli Claude'un karmaşık biyoinformatik problemleri çözme yeteneklerini değerlendiriyor. 99 sorudan 76'sı insan uzmanlar tarafından çözülebilirken, 23 soru beş alan uzmanı tarafından bile çözülemedi. Claude Opus 4.6, insan tarafından çözülebilen sorularda %77,4 doğruluk oranı elde ederken, Mythos Preview modeli bu oranı daha da artırdı. Özellikle Mythos Preview, insan için zor olan soruların %30'unu çözdü. Claude'un başarısı, farklı makalelerden edinilen bilgileri kullanabilme ve aynı anda birden fazla analitik yöntemi uygulayabilme yeteneğine bağlanıyor. Ancak, güvenilirlik analizleri tutarlılıkta bir boşluk olduğunu gösteriyor; insan tarafından çözülebilen sorularda doğru cevapların %86'sı denemeler arasında istikrarlı iken, insan için zor sorularda bu oran sadece %44. Bu durum modelin yetenek sınırlarını ortaya koyuyor. Aynı zamanda, Genentech ve Roche'un CompBioBench testi de bu bulguları doğruladı; Claude Opus 4.6 genel olarak %81 doğruluk ve en zor sorularda %69 doğruluk sağladı.