Một chuẩn đánh giá mới, CUSP, được phát triển bởi Đại học Stanford, Đại học Oxford và Viện Allen về Trí tuệ Nhân tạo, tiết lộ những hạn chế đáng kể trong khả năng dự đoán tiến bộ khoa học của các mô hình AI. Đánh giá đã thử nghiệm các mô hình AI hàng đầu như GPT-5.4, Claude Sonnet 4.5 và DeepSeek R1, phát hiện rằng mặc dù các mô hình này xuất sắc trong lý luận cơ học, độ chính xác của chúng trong việc dự đoán các khám phá khoa học mới tương tự như đoán ngẫu nhiên.
Chuẩn đánh giá CUSP, bao gồm 4.760 cột mốc khoa học và 17.429 nhiệm vụ đánh giá, giới thiệu các giới hạn về cắt đứt kiến thức theo thời gian để đánh giá khả năng dự đoán thực sự. Kết quả cho thấy các mô hình như GPT-5.4 và Claude S4.5 liên tục đánh giá quá cao thời gian đạt được đột phá, với độ trễ từ 14 đến 26 tháng. Mặc dù đạt độ chính xác cao trong việc xác định các hướng nghiên cứu khả thi, các mô hình gặp khó khăn trong đánh giá tính khả thi, chỉ đạt độ chính xác từ 45% đến 52%. Điều này làm nổi bật một khoảng cách đáng kể trong khả năng của AI trong việc cung cấp hướng dẫn đáng tin cậy trong khám phá khoa học.
Tiêu chuẩn CUSP phơi bày những hạn chế của các mô hình AI trong dự báo khoa học
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
