Modelo de Difusão AMD da Zyphra Acelera 7,7x

A Zyphra lançou o ZAYA1-8B-Diffusion-Preview, um modelo de linguagem por difusão que representa um avanço significativo no ecossistema de hardware da AMD. Este modelo, um modelo de difusão do tipo mistura de especialistas (MoE), é derivado de um grande modelo de linguagem autoregressivo e afirma ser o primeiro do seu tipo dentro do framework da AMD. Embora modelos semelhantes tenham sido introduzidos por outras equipes, o ZAYA1 se destaca ao aproveitar arquiteturas de difusão para melhorar a eficiência da engenharia. O modelo ZAYA1 aborda as limitações dos modelos autoregressivos tradicionais, que são prejudicados pela geração sequencial de tokens e pelos limites físicos de velocidade. Ao adotar a abordagem TiDAR, o ZAYA1 permite a remoção de ruído paralela de 16 candidatos a tokens em uma única passagem direta, transformando efetivamente as restrições de largura de banda de memória em gargalos de computação. Testes no mundo real indicam que o mecanismo proprietário de atenção CCA do ZAYA1, combinado com um sampler sem perdas padrão, alcança uma aceleração de 4,6 vezes na recepção de tokens. Essa aceleração aumenta para 7,7 vezes com um sampler logit misto, reduzindo significativamente os custos para tarefas de inferência em larga escala com alta latência.