A Zyphra lançou o ZAYA1-8B-Diffusion-Preview, um modelo de linguagem por difusão que representa um avanço significativo no ecossistema de hardware da AMD. Este modelo, um modelo de difusão do tipo mistura de especialistas (MoE), é derivado de um grande modelo de linguagem autoregressivo e afirma ser o primeiro do seu tipo dentro do framework da AMD. Embora modelos semelhantes tenham sido introduzidos por outras equipes, o ZAYA1 se destaca ao aproveitar arquiteturas de difusão para melhorar a eficiência da engenharia.
O modelo ZAYA1 aborda as limitações dos modelos autoregressivos tradicionais, que são prejudicados pela geração sequencial de tokens e pelos limites físicos de velocidade. Ao adotar a abordagem TiDAR, o ZAYA1 permite a remoção de ruído paralela de 16 candidatos a tokens em uma única passagem direta, transformando efetivamente as restrições de largura de banda de memória em gargalos de computação. Testes no mundo real indicam que o mecanismo proprietário de atenção CCA do ZAYA1, combinado com um sampler sem perdas padrão, alcança uma aceleração de 4,6 vezes na recepção de tokens. Essa aceleração aumenta para 7,7 vezes com um sampler logit misto, reduzindo significativamente os custos para tarefas de inferência em larga escala com alta latência.
Zyphra Lança Modelo de Linguagem de Difusão Baseado em AMD com Aceleração de Velocidade de 7,7x
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
