Modèle de diffusion AMD de Zyphra : vitesse x7,7

Zyphra a lancé le ZAYA1-8B-Diffusion-Preview, un modèle de langage par diffusion qui représente une avancée significative dans l'écosystème matériel AMD. Ce modèle, un modèle de diffusion mixture-of-experts (MoE), est dérivé d'un grand modèle de langage autorégressif et prétend être le premier du genre dans le cadre AMD. Bien que des modèles similaires aient été introduits par d'autres équipes, le ZAYA1 se distingue en exploitant des architectures de diffusion pour améliorer l'efficacité de l'ingénierie. Le modèle ZAYA1 répond aux limites des modèles autorégressifs traditionnels, qui sont freinés par la génération séquentielle de tokens et les limites physiques de vitesse. En adoptant l'approche TiDAR, le ZAYA1 permet le débruitage parallèle de 16 candidats tokens en une seule passe avant, transformant efficacement les contraintes de bande passante mémoire en goulets d'étranglement de calcul. Les tests en conditions réelles indiquent que le mécanisme d'attention CCA propriétaire de ZAYA1, combiné à un échantillonneur sans perte standard, atteint une accélération de 4,6 fois dans la réception des tokens. Cette accélération passe à 7,7 fois avec un échantillonneur logit mixte, réduisant significativement les coûts pour les tâches d'inférence à grande échelle sensibles à la latence.