GPT-5.5 Đạt Điểm Tuyệt Đối Trong Thử Thách ProgramBench

GPT-5.5 đã trở thành AI đầu tiên đạt điểm tuyệt đối trong thử thách viết lại nhị phân ProgramBench, một chuẩn đánh giá được phát triển bởi Meta FAIR, Stanford và Harvard. Thử thách này yêu cầu AI tái tạo các chương trình từ các tệp nhị phân đã biên dịch mà không có mã nguồn hay gợi ý. GPT-5.5, ở chế độ suy luận cao, đã thành công trong việc tái tạo chương trình cmatrix bằng cả C và Python, vượt qua tất cả các bài kiểm tra với chi phí lần lượt là 3,17 USD và 4,84 USD. Ngược lại, Claude Opus 4.7 đã thất bại trong 19 bài kiểm tra mặc dù chi phí và số lần gọi API cao hơn. Thành tựu này làm nổi bật tác động của cường độ suy luận đối với hiệu suất AI, mặc dù việc hiểu đầy đủ nhị phân vẫn còn là mục tiêu xa vời.

Nguồn: Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.

Bạn cũng có thể thích