Модель Cerebras Kimi K2.6 ускоряет обработку текста в 29 раз

Компания Cerebras представила модель Kimi K2.6 с триллионом параметров, проходящую корпоративные тесты и демонстрирующую значительное ускорение при обработке длинных текстов. За счёт интеграции чипов на 12-дюймовом кремниевом пластине модель устраняет задержки межсоединений, достигая скорости генерации 981 токен в секунду — в 6,7 раза быстрее, чем у основных облачных сервисов на базе GPU. В тестах с 10 000 входных токенов и 500 выходных токенов Kimi K2.6 сократила время отклика с 163,7 секунд до всего 5,6 секунд, что составляет улучшение в 29 раз. Архитектура модели позволяет осуществлять межслойную коммуникацию через встроенную в пластину сеть, обеспечивая пропускную способность более чем в 200 раз выше, чем у NVIDIA NVLink. В сочетании с оптимизациями распределённых вычислений и эффективной обработкой данных это обеспечивает работу в реальном времени с минимальной потерей точности.

Вам также может понравиться