Mô hình AI gặp khó trong bài kiểm tra nhà phân tích tài chính của Vals AI

Các mô hình AI, bao gồm GPT-5.5, đã gặp khó khăn trong việc đáp ứng yêu cầu của chuẩn đánh giá Finance Agent v2 mới của Vals AI, mô phỏng quy trình làm việc của các nhà phân tích tài chính cấp thấp. Bài kiểm tra, gồm 927 câu hỏi được các chuyên gia đánh giá, cho thấy GPT-5.5 đạt độ chính xác cao nhất chỉ 51,76%, nhỉnh hơn một chút so với Claude Opus 4.7 và Claude Sonnet 4.6. Chuẩn đánh giá yêu cầu các mô hình tự động tìm kiếm thông tin liên quan trong các báo cáo tài chính rộng lớn và thực hiện các phép tính phức tạp, làm nổi bật những thách thức mà AI phải đối mặt trong phân tích tài chính độ chính xác cao. Mặc dù có cải thiện trong các nhiệm vụ truy xuất cơ bản, kết quả cho thấy AI vẫn còn xa mới có thể thay thế các nhà phân tích con người trong lĩnh vực tài chính. Dưới các tiêu chuẩn chấm điểm nghiêm ngặt, tất cả các mô hình hàng đầu đều đạt điểm dưới 40%, với các hạng mục khó nhất chỉ đạt điểm thấp tới 23%. Bài kiểm tra nhấn mạnh sự cần thiết phải có những tiến bộ hơn nữa trong AI để đáp ứng các yêu cầu khắt khe của phân tích tài chính.