A OpenAI lançou o LifeSciBench, um novo benchmark destinado a avaliar as capacidades dos sistemas de IA em cenários reais de pesquisa científica. O benchmark compreende 750 tarefas distribuídas em sete categorias de fluxo de trabalho de pesquisa e sete domínios da biologia, elaboradas por 173 pesquisadores com doutorado em biotecnologia ou farmacêutica. O LifeSciBench foca em capacidades científicas complexas, como integração de evidências, desenho experimental e raciocínio científico, com mais de 79% das tarefas exigindo raciocínio em múltiplas etapas e uma média de quatro etapas de raciocínio por questão. O benchmark inclui 1.062 anexos de dados reais relacionados à pesquisa, aumentando sua relevância prática.