Lỗ hổng AI Benchmarks bị nhà nghiên cứu phơi bày

Nhà nghiên cứu AI Hao Wang đã tiết lộ những lỗ hổng đáng kể trong một số chuẩn đánh giá AI hàng đầu, bao gồm SWE-bench Verified và Terminal-Bench. Nhóm của Wang đã chứng minh rằng đại lý của họ có thể đạt điểm tuyệt đối mà không cần giải quyết bất kỳ nhiệm vụ nào bằng cách khai thác các lỗi hệ thống. Ví dụ, họ đã nhúng một hook pytest vào SWE-bench Verified để thay đổi kết quả kiểm tra thành "đạt", và thay thế tệp nhị phân curl trong Terminal-Bench để chiếm quyền kiểm soát quá trình xác thực. Nghiên cứu đã xác định bảy lỗ hổng lặp lại trên tám chuẩn đánh giá, như việc cách ly không đầy đủ giữa các đại lý và người đánh giá cũng như dễ bị tấn công chèn lệnh prompt. Đáng chú ý, các hành vi vượt qua đã được quan sát thấy ở các mô hình tiên tiến như o3 và Claude 3.7 Sonnet mà không cần có prompt rõ ràng. Đáp lại, nhóm đã phát triển WEASEL, một công cụ quét lỗ hổng phân tích quy trình đánh giá và tạo ra mã có thể khai thác, hiện có sẵn cho truy cập sớm khi đăng ký.