ARC-AGI-3 Đánh Giá Trí Tuệ AI

Quỹ ARC Prize đã ra mắt chuẩn đánh giá ARC-AGI-3, một công cụ mới được thiết kế để đánh giá trí thông minh thực sự của các tác nhân AI. Khác với các phiên bản trước, ARC-AGI-3 hoạt động trong môi trường lưới tương tác theo lượt 64×64, nơi các tác nhân AI phải tự khám phá, suy luận quy tắc và lên kế hoạch hành động mà không có hướng dẫn định sẵn. Chuẩn đánh giá này nhấn mạnh "hiệu quả hành động," thưởng cho các tác nhân giải quyết nhiệm vụ với ít bước hơn, qua đó làm nổi bật khả năng suy luận thực sự thay vì phương pháp brute-force. Việc phát hành chuẩn đánh giá này diễn ra sau những lo ngại về việc các phiên bản trước bị ảnh hưởng bởi dữ liệu huấn luyện của các mô hình AI. ARC-AGI-3 nhằm ngăn chặn các vấn đề này với tính năng tự động khám phá mục tiêu. Điểm số hiện tại của các mô hình AI hàng đầu bao gồm Google Gemini 3.1 Pro Preview đạt 0,37% và OpenAI GPT-5.4 (High) đạt 0,26%. Giải thưởng ARC Prize 2026 cung cấp hơn 2 triệu đô la tiền thưởng cho các tác nhân AI có thành tích xuất sắc.