Китайские ИИ заняли 4 места в топ-10 SWE-bench

Китайские модели ИИ значительно продвинулись в рейтинге SWE-bench, заняв четыре из десяти лучших позиций. SWE-bench, являющийся реальным временем бенчмарком для задач программной инженерии, недавно обновил свою таблицу лидеров, где лидирует Claude Opus 4.6 с результатом 65,3%. Открытая модель GLM-5 от Zhipu AI занимает третье место с 62,8%, что является наивысшей позицией для открытой модели. Другие китайские модели в топ-10 включают DeepSeek-V3.2, Qwen3.5-397B-A17B от Alibaba и Step-3.5-Flash от Jiepoin星辰. Это отмечает заметное улучшение для китайских моделей ИИ, которые ранее не входили в топ-10. Ли Цзисюань, глобальный руководитель Zhipu Z.ai, отметил прогресс, упомянув прошлую критику китайских моделей за "benchmaxing". Последнее обновление убрало предыдущие демонстрации примеров и ограничение в 80 шагов операций, добавив вспомогательные оценочные задачи для повышения строгости бенчмарка.