Mô hình AI Trung Quốc chiếm 4 vị trí Top 10 SWE-bench

Các mô hình AI Trung Quốc đã đạt được tiến bộ đáng kể trong bảng xếp hạng SWE-bench, hiện đang giữ bốn trong số mười vị trí hàng đầu. SWE-bench, một chuẩn đánh giá thời gian thực cho các nhiệm vụ kỹ thuật phần mềm, gần đây đã cập nhật bảng xếp hạng của mình, với Claude Opus 4.6 dẫn đầu ở mức 65,3%. Mô hình mã nguồn mở GLM-5 của Zhipu AI xếp thứ ba với 62,8%, đánh dấu vị trí cao nhất cho một mô hình mã nguồn mở. Các mô hình Trung Quốc khác trong top mười bao gồm DeepSeek-V3.2, Qwen3.5-397B-A17B của Alibaba và Step-3.5-Flash của Jiepoin星辰. Điều này đánh dấu sự cải thiện đáng chú ý cho các mô hình AI Trung Quốc, vốn trước đây không nằm trong top mười. Li Zixuan, Trưởng toàn cầu của Zhipu Z.ai, đã nhấn mạnh tiến bộ này, lưu ý những chỉ trích trước đây đối với các mô hình Trung Quốc về việc "benchmaxing." Bản cập nhật mới nhất đã loại bỏ các ví dụ minh họa trước đây và giới hạn vận hành 80 bước, đồng thời thêm các nhiệm vụ đánh giá phụ trợ để nâng cao độ nghiêm ngặt của chuẩn đánh giá.