Phòng thí nghiệm AI Stanford và Phòng thí nghiệm Điện toán Sky Berkeley, phối hợp với NVIDIA, đã công bố một phương pháp mới gọi là LLM-as-a-Verifier nhằm cải thiện độ chính xác của các tác nhân lập trình AI. Phương pháp này giải quyết thách thức trong việc chọn ra giải pháp tốt nhất từ nhiều lần thử bằng cách phân tích phân phối xác suất của mô hình trên các mức điểm số, thay vì chỉ dựa vào điểm cuối cùng của trọng tài. Verifier cũng đánh giá các nhiệm vụ theo ba chiều: hoàn thành yêu cầu nhiệm vụ, độ chính xác của định dạng đầu ra và sự hiện diện của tín hiệu lỗi. Trong các thí nghiệm, Verifier đã thể hiện hiệu suất vượt trội, đạt độ chính xác một lần chạy là 74,7% so với 57,0% của các phương pháp truyền thống. Sau 16 lần lặp lại, độ chính xác tăng lên 77,4%, vượt qua mức 70,2% của trọng tài. Verifier cũng loại bỏ các trường hợp hòa trong so sánh giải pháp, một vấn đề phổ biến với trọng tài truyền thống. Các ứng dụng thực tiễn trên Terminal-Bench 2 và SWE-Bench Verified cho thấy sự cải thiện đáng kể về tỷ lệ thành công, với Verifier đạt thứ hạng cao nhất kể từ khi ra mắt vào ngày 9 tháng 4. Khung công tác này đã được mở mã nguồn để sử dụng rộng rãi hơn.