Anthropic представила BioMysteryBench — новый эталон, включающий 99 вопросов по биоинформатике, разработанных экспертами на основе реальных данных. Этот эталон оценивает возможности Claude, ИИ-модели Anthropic, в решении сложных задач биоинформатики. Из 99 вопросов 76 были решены экспертами-человеками, тогда как 23 остались нерешёнными даже для пяти специалистов в данной области. Модель Claude Opus 4.6 достигла точности 77,4% по вопросам, решаемым людьми, а модель Mythos Preview показала ещё лучшие результаты. Особенно примечательно, что Mythos Preview решила 30% вопросов, сложных для людей. Успех Claude объясняется его способностью использовать знания из разных исследований и применять несколько аналитических методов одновременно. Однако анализ надёжности выявил разрыв в стабильности: 86% правильных ответов на вопросы, решаемые людьми, оставались стабильными при повторных попытках, тогда как для сложных для людей вопросов этот показатель составил лишь 44%. Это подчёркивает границы возможностей модели. Одновременно CompBioBench от Genentech и Roche подтвердил эти результаты: Claude Opus 4.6 достиг точности 81% в целом и 69% по самым сложным вопросам.