Phòng thí nghiệm AI Stanford và Phòng thí nghiệm Điện toán Sky Berkeley, phối hợp với NVIDIA, đã công bố một phương pháp mới gọi là LLM-as-a-Verifier nhằm cải thiện độ chính xác của các tác nhân lập trình AI. Phương pháp này giải quyết thách thức trong việc chọn ra giải pháp tốt nhất từ nhiều lần thử bằng cách phân tích phân phối xác suất của mô hình trên các mức điểm số, thay vì chỉ dựa vào điểm cuối cùng của trọng tài. Verifier cũng đánh giá các nhiệm vụ theo ba chiều: hoàn thành yêu cầu nhiệm vụ, độ chính xác của định dạng đầu ra và sự hiện diện của tín hiệu lỗi.
Trong các thí nghiệm, Verifier đã thể hiện hiệu suất vượt trội, đạt độ chính xác một lần chạy là 74,7% so với 57,0% của các phương pháp truyền thống. Sau 16 lần lặp lại, độ chính xác tăng lên 77,4%, vượt qua mức 70,2% của trọng tài. Verifier cũng loại bỏ các trường hợp hòa trong so sánh giải pháp, một vấn đề phổ biến với trọng tài truyền thống. Các ứng dụng thực tiễn trên Terminal-Bench 2 và SWE-Bench Verified cho thấy sự cải thiện đáng kể về tỷ lệ thành công, với Verifier đạt thứ hạng cao nhất kể từ khi ra mắt vào ngày 9 tháng 4. Khung công tác này đã được mở mã nguồn để sử dụng rộng rãi hơn.
Stanford và Berkeley giới thiệu LLM như một công cụ xác minh, nâng cao độ chính xác của nhiệm vụ AI
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
