Alibaba Lança Avançado Modelo de IA Qwen3-Next com Eficiência Aprimorada

A Alibaba apresentou sua mais recente arquitetura de modelo de IA, Qwen3-Next, por meio de sua divisão Tongyi Qianwen. O novo modelo, Qwen3-Next-80B-A3B, é de código aberto e apresenta melhorias significativas em relação à arquitetura anterior Qwen3 MoE. As principais melhorias incluem um mecanismo de atenção híbrido, uma estrutura MoE altamente esparsa e um mecanismo de previsão de múltiplos tokens, todos contribuindo para uma inferência mais eficiente. O modelo Qwen3-Next-80B-A3B-Base, construído sobre essa arquitetura, possui 80 bilhões de parâmetros, mas ativa apenas 3 bilhões, alcançando desempenho equivalente ou superior ao modelo denso Qwen3-32B. Notavelmente, seus custos de treinamento são inferiores a um décimo dos do Qwen3-32B, e sua taxa de transferência de inferência para contextos acima de 32k é mais de dez vezes maior, oferecendo uma relação custo-benefício substancial tanto no treinamento quanto na inferência.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

Você também pode gostar