OpenAI Ra Mắt LifeSciBench Để Đánh Giá AI Trong Nghiên Cứu Khoa Học

OpenAI đã giới thiệu LifeSciBench, một chuẩn đánh giá mới nhằm đánh giá khả năng của các hệ thống AI trong các kịch bản nghiên cứu khoa học thực tế. Chuẩn đánh giá này bao gồm 750 nhiệm vụ trải rộng trên bảy loại quy trình nghiên cứu và bảy lĩnh vực sinh học, được xây dựng bởi 173 nhà nghiên cứu có bằng tiến sĩ trong lĩnh vực công nghệ sinh học hoặc dược phẩm. LifeSciBench tập trung vào các khả năng khoa học phức tạp như tích hợp bằng chứng, thiết kế thí nghiệm và lý luận khoa học, với hơn 79% nhiệm vụ yêu cầu suy luận nhiều bước và trung bình bốn bước suy luận cho mỗi câu hỏi. Chuẩn đánh giá còn bao gồm 1.062 tệp dữ liệu liên quan đến nghiên cứu thực tế, tăng cường tính ứng dụng thực tiễn của nó.

Nguồn: Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.