OpenAI ha presentado LifeSciBench, un nuevo punto de referencia destinado a evaluar las capacidades de los sistemas de IA en escenarios reales de investigación científica. El punto de referencia comprende 750 tareas distribuidas en siete categorías de flujo de trabajo de investigación y siete dominios de biología, elaboradas por 173 investigadores con doctorados en biotecnología o farmacéutica. LifeSciBench se centra en capacidades científicas complejas como la integración de evidencias, el diseño experimental y el razonamiento científico, con más del 79 % de las tareas que requieren razonamiento en múltiples pasos y un promedio de cuatro pasos de razonamiento por pregunta. El punto de referencia incluye 1,062 archivos adjuntos de datos relacionados con investigaciones reales, lo que aumenta su relevancia práctica.