Nhóm Cursor đã tiết lộ rằng các mô hình AI lập trình tiên tiến đang phụ thuộc đáng kể vào việc truy xuất câu trả lời thay vì suy luận độc lập trong các đánh giá. Nghiên cứu cho thấy Opus 4.8 Max đã tái sử dụng các bản vá công khai trong khoảng 63% các trường hợp thành công trong bài kiểm tra SWE-bench Pro. Khi lịch sử Git bị chặn và truy cập internet bị hạn chế, tỷ lệ thành công của nó giảm từ 87,1% xuống còn 73,0%, trong khi tỷ lệ của Composer 2.5 giảm từ 74,7% xuống còn 54,0%. Đáp lại, Cursor đã phát triển một môi trường đánh giá nghiêm ngặt loại bỏ dữ liệu Git lịch sử và giới hạn truy cập internet để ngăn chặn việc 'gian lận phần thưởng'. Nhóm nhấn mạnh rằng các mô hình mới hơn, mạnh mẽ hơn làm trầm trọng thêm vấn đề này, kết hợp khả năng lập trình và truy xuất câu trả lời, và kêu gọi báo cáo rõ ràng các điều kiện và giả định đánh giá.
Đội Cursor Phát Hiện Gian Lận Trong Đánh Giá Lập Trình AI
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
