Alibaba dévoile le modèle d'IA avancé Qwen3-Next avec une efficacité améliorée

Alibaba a présenté sa dernière architecture de modèle d'IA, Qwen3-Next, via sa division Tongyi Qianwen. Le nouveau modèle, Qwen3-Next-80B-A3B, est open source et affiche des améliorations significatives par rapport à la précédente architecture Qwen3 MoE. Les améliorations clés incluent un mécanisme d'attention hybride, une structure MoE très éparse, et un mécanisme de prédiction multi-tokens, contribuant tous à une inférence plus efficace. Le modèle Qwen3-Next-80B-A3B-Base, construit sur cette architecture, comporte 80 milliards de paramètres mais n'en active que 3 milliards, atteignant des performances équivalentes ou supérieures à celles du modèle dense Qwen3-32B. Notamment, ses coûts d'entraînement sont inférieurs à un dixième de ceux du Qwen3-32B, et son débit d'inférence pour des contextes supérieurs à 32k est plus de dix fois supérieur, offrant une rentabilité substantielle tant à l'entraînement qu'à l'inférence.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.

Vous pourriez aussi aimer