GLM-5.1 Tops Open-Source Models in Coding Agent Benchmark

GLM-5.1 has emerged as the leading open-source model in the Artificial Analysis Coding Agent Benchmark, according to a report by Artificial Analysis. The benchmark evaluates model performance on three key tests: SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, and SWE-Atlas-QnA, which simulate real-world programming and technical tasks. While the proprietary Opus 4.7 model secured the top global position, GLM-5.1, operating on Claude Code, led among open-source models, showcasing its advanced capabilities in programming agent scenarios.

Nguồn: Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.

Bạn cũng có thể thích