Meta a présenté MobileMoE, un modèle Mixture of Experts (MoE) optimisé pour les appareils mobiles, réalisant des améliorations significatives de performance sur les smartphones. MobileMoE-S a démontré un traitement des entrées jusqu'à 3,8 fois plus rapide sur le backend GPU/MLX de l'iPhone 16 Pro par rapport aux modèles denses, tout en maintenant une utilisation de la mémoire et une précision comparables. Cette avancée marque la première inférence MoE efficace sur des smartphones commerciaux, tirant parti de la capacité accrue de la DRAM.
Le modèle MobileMoE conserve une architecture Transformer à décodeur seul, remplaçant les couches feed-forward denses par des couches MoE. Il utilise un processus d'entraînement en quatre étapes, incluant un pré-entraînement sur 6 trillions de tokens et un entraînement conscient de la quantification. Malgré une légère baisse de performance après la quantification, MobileMoE reste compétitif, surpassant d'autres modèles comme OLMoE-1B-7B dans certains benchmarks. Les améliorations futures viseront à affiner les capacités de suivi des instructions et à optimiser l'utilisation de la mémoire pour des entrées réelles.
MobileMoE de Meta réalise une accélération de 3,8x sur l'iPhone 16 Pro
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
