MobileMoE de Meta accélère iPhone 16 Pro par 3,8x

Meta a présenté MobileMoE, un modèle Mixture of Experts (MoE) optimisé pour les appareils mobiles, réalisant des améliorations significatives de performance sur les smartphones. MobileMoE-S a démontré un traitement des entrées jusqu'à 3,8 fois plus rapide sur le backend GPU/MLX de l'iPhone 16 Pro par rapport aux modèles denses, tout en maintenant une utilisation de la mémoire et une précision comparables. Cette avancée marque la première inférence MoE efficace sur des smartphones commerciaux, tirant parti de la capacité accrue de la DRAM. Le modèle MobileMoE conserve une architecture Transformer à décodeur seul, remplaçant les couches feed-forward denses par des couches MoE. Il utilise un processus d'entraînement en quatre étapes, incluant un pré-entraînement sur 6 trillions de tokens et un entraînement conscient de la quantification. Malgré une légère baisse de performance après la quantification, MobileMoE reste compétitif, surpassant d'autres modèles comme OLMoE-1B-7B dans certains benchmarks. Les améliorations futures viseront à affiner les capacités de suivi des instructions et à optimiser l'utilisation de la mémoire pour des entrées réelles.

Vous pourriez aussi aimer