Anthropic представила BioMysteryBench — новый эталон, включающий 99 вопросов по биоинформатике, разработанных экспертами на основе реальных данных. Этот эталон оценивает возможности Claude, ИИ-модели Anthropic, в решении сложных задач биоинформатики. Из 99 вопросов 76 были решены экспертами-человеками, тогда как 23 остались нерешёнными даже для пяти специалистов в данной области. Модель Claude Opus 4.6 достигла точности 77,4% по вопросам, решаемым людьми, а модель Mythos Preview показала ещё лучшие результаты. Особенно примечательно, что Mythos Preview решила 30% вопросов, сложных для людей.
Успех Claude объясняется его способностью использовать знания из разных исследований и применять несколько аналитических методов одновременно. Однако анализ надёжности выявил разрыв в стабильности: 86% правильных ответов на вопросы, решаемые людьми, оставались стабильными при повторных попытках, тогда как для сложных для людей вопросов этот показатель составил лишь 44%. Это подчёркивает границы возможностей модели. Одновременно CompBioBench от Genentech и Roche подтвердил эти результаты: Claude Opus 4.6 достиг точности 81% в целом и 69% по самым сложным вопросам.
Claude Mythos от Anthropic решает 30% сложных задач в области биоинформатики
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
