OpenAI a présenté LifeSciBench, un nouveau référentiel destiné à évaluer les capacités des systèmes d'IA dans des scénarios de recherche scientifique réels. Ce référentiel comprend 750 tâches réparties en sept catégories de flux de travail de recherche et sept domaines de la biologie, élaborées par 173 chercheurs titulaires d'un doctorat en biotechnologie ou en pharmacie. LifeSciBench se concentre sur des compétences scientifiques complexes telles que l'intégration des preuves, la conception expérimentale et le raisonnement scientifique, avec plus de 79 % des tâches nécessitant un raisonnement en plusieurs étapes et une moyenne de quatre étapes de raisonnement par question. Le référentiel inclut 1 062 pièces jointes de données réelles liées à la recherche, renforçant ainsi sa pertinence pratique.