OpenAI는 실제 과학 연구 시나리오에서 AI 시스템의 역량을 평가하기 위한 새로운 벤치마크인 LifeSciBench를 도입했습니다. 이 벤치마크는 7개의 연구 워크플로우 카테고리와 7개의 생물학 분야에 걸쳐 750개의 과제로 구성되어 있으며, 생명공학 또는 제약 분야 박사 학위를 가진 173명의 연구자들이 제작했습니다. LifeSciBench는 증거 통합, 실험 설계, 과학적 추론과 같은 복잡한 과학적 능력에 중점을 두고 있으며, 과제의 79% 이상이 다단계 추론을 요구하고 질문당 평균 4단계의 추론 과정을 포함합니다. 또한, 1,062개의 실제 연구 관련 데이터 첨부 파일을 포함하여 실용성을 높였습니다.