OpenAI đã giới thiệu LifeSciBench, một chuẩn đánh giá mới nhằm đánh giá khả năng của các hệ thống AI trong các kịch bản nghiên cứu khoa học thực tế. Chuẩn đánh giá này bao gồm 750 nhiệm vụ trải rộng trên bảy loại quy trình nghiên cứu và bảy lĩnh vực sinh học, được xây dựng bởi 173 nhà nghiên cứu có bằng tiến sĩ trong lĩnh vực công nghệ sinh học hoặc dược phẩm. LifeSciBench tập trung vào các khả năng khoa học phức tạp như tích hợp bằng chứng, thiết kế thí nghiệm và lý luận khoa học, với hơn 79% nhiệm vụ yêu cầu suy luận nhiều bước và trung bình bốn bước suy luận cho mỗi câu hỏi. Chuẩn đánh giá còn bao gồm 1.062 tệp dữ liệu liên quan đến nghiên cứu thực tế, tăng cường tính ứng dụng thực tiễn của nó.