Các mô hình AI Trung Quốc đã đạt được tiến bộ đáng kể trong bảng xếp hạng SWE-bench, hiện đang giữ bốn trong số mười vị trí hàng đầu. SWE-bench, một chuẩn đánh giá thời gian thực cho các nhiệm vụ kỹ thuật phần mềm, gần đây đã cập nhật bảng xếp hạng của mình, với Claude Opus 4.6 dẫn đầu ở mức 65,3%. Mô hình mã nguồn mở GLM-5 của Zhipu AI xếp thứ ba với 62,8%, đánh dấu vị trí cao nhất cho một mô hình mã nguồn mở. Các mô hình Trung Quốc khác trong top mười bao gồm DeepSeek-V3.2, Qwen3.5-397B-A17B của Alibaba và Step-3.5-Flash của Jiepoin星辰.
Điều này đánh dấu sự cải thiện đáng chú ý cho các mô hình AI Trung Quốc, vốn trước đây không nằm trong top mười. Li Zixuan, Trưởng toàn cầu của Zhipu Z.ai, đã nhấn mạnh tiến bộ này, lưu ý những chỉ trích trước đây đối với các mô hình Trung Quốc về việc "benchmaxing." Bản cập nhật mới nhất đã loại bỏ các ví dụ minh họa trước đây và giới hạn vận hành 80 bước, đồng thời thêm các nhiệm vụ đánh giá phụ trợ để nâng cao độ nghiêm ngặt của chuẩn đánh giá.
Các Mô Hình AI Trung Quốc Giành Bốn Vị Trí Trong Top 10 SWE-bench
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
