OpenAI представила LifeSciBench — новый эталонный тест, предназначенный для оценки возможностей ИИ-систем в реальных сценариях научных исследований. Тест включает 750 заданий, охватывающих семь категорий исследовательских рабочих процессов и семь областей биологии, разработанных 173 исследователями с докторскими степенями в области биотехнологий или фармацевтики. LifeSciBench сосредоточен на сложных научных навыках, таких как интеграция доказательств, проектирование экспериментов и научное рассуждение, при этом более 79% заданий требуют многоэтапного рассуждения, а в среднем на каждый вопрос приходится четыре шага рассуждения. В тест включено 1 062 реальных вложения с данными, связанными с исследованиями, что повышает его практическую значимость.