Modelo de Difusión AMD de Zyphra Acelera 7.7x

Zyphra ha lanzado el ZAYA1-8B-Diffusion-Preview, un modelo de lenguaje por difusión que representa un avance significativo en el ecosistema de hardware de AMD. Este modelo, un modelo de difusión de mezcla de expertos (MoE), se deriva de un modelo de lenguaje grande autorregresivo y afirma ser el primero de su tipo dentro del marco de AMD. Aunque otros equipos han introducido modelos similares, ZAYA1 se distingue por aprovechar arquitecturas de difusión para mejorar la eficiencia en ingeniería. El modelo ZAYA1 aborda las limitaciones de los modelos autorregresivos tradicionales, que están obstaculizados por la generación secuencial de tokens y los límites físicos de velocidad. Al adoptar el enfoque TiDAR, ZAYA1 permite el desruido paralelo de 16 candidatos de tokens en una sola pasada hacia adelante, transformando efectivamente las limitaciones del ancho de banda de memoria en cuellos de botella de cómputo. Las pruebas en el mundo real indican que el mecanismo de atención CCA propietario de ZAYA1, combinado con un muestreador sin pérdida estándar, logra una aceleración de 4.6 veces en la recepción de tokens. Esta aceleración aumenta a 7.7 veces con un muestreador logit mixto, reduciendo significativamente los costos para tareas de inferencia a gran escala con alta latencia.