Диффузионная модель Zyphra на AMD ускоряет в 7,7 раза

Компания Zyphra представила ZAYA1-8B-Diffusion-Preview — диффузионную языковую модель, которая знаменует собой значительный прогресс в экосистеме аппаратного обеспечения AMD. Эта модель, являющаяся диффузионной моделью с использованием смеси экспертов (MoE), основана на авторегрессионной большой языковой модели и заявляет о себе как о первой в своем роде в рамках AMD. Хотя аналогичные модели были представлены другими командами, ZAYA1 выделяется за счет использования диффузионных архитектур для повышения эффективности инженерных решений. Модель ZAYA1 решает ограничения традиционных авторегрессионных моделей, которые страдают от последовательной генерации токенов и физических ограничений скорости. Применяя подход TiDAR, ZAYA1 позволяет параллельно выполнять денойзинг 16 кандидатов токенов за один проход вперед, эффективно превращая ограничения пропускной способности памяти в узкие места вычислений. Тестирование в реальных условиях показывает, что собственный механизм внимания CCA в сочетании со стандартным безпотерьным сэмплером обеспечивает ускорение приема токенов в 4,6 раза. Это ускорение увеличивается до 7,7 раза при использовании смешанного логит-сэмплера, что значительно снижает затраты для задач масштабного вывода с высокой задержкой.