Китайские модели ИИ значительно продвинулись в рейтинге SWE-bench, заняв четыре из десяти лучших позиций. SWE-bench, являющийся реальным временем бенчмарком для задач программной инженерии, недавно обновил свою таблицу лидеров, где лидирует Claude Opus 4.6 с результатом 65,3%. Открытая модель GLM-5 от Zhipu AI занимает третье место с 62,8%, что является наивысшей позицией для открытой модели. Другие китайские модели в топ-10 включают DeepSeek-V3.2, Qwen3.5-397B-A17B от Alibaba и Step-3.5-Flash от Jiepoin星辰.
Это отмечает заметное улучшение для китайских моделей ИИ, которые ранее не входили в топ-10. Ли Цзисюань, глобальный руководитель Zhipu Z.ai, отметил прогресс, упомянув прошлую критику китайских моделей за "benchmaxing". Последнее обновление убрало предыдущие демонстрации примеров и ограничение в 80 шагов операций, добавив вспомогательные оценочные задачи для повышения строгости бенчмарка.
Китайские модели ИИ заняли четыре места в топ-10 SWE-bench
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
