Meta ha presentado MobileMoE, un modelo de Mezcla de Expertos (MoE) optimizado para dispositivos móviles, logrando mejoras significativas en el rendimiento en smartphones. MobileMoE-S demostró un procesamiento de entrada hasta 3.8 veces más rápido en el backend GPU/MLX del iPhone 16 Pro en comparación con modelos densos, manteniendo un uso de memoria y precisión comparables. Este avance marca la primera inferencia eficiente de MoE en smartphones comerciales, aprovechando la mayor capacidad de DRAM. El modelo MobileMoE conserva una arquitectura Transformer solo con decodificador, reemplazando las capas densas de alimentación directa por capas MoE. Utiliza un proceso de entrenamiento en cuatro etapas, que incluye preentrenamiento con 6 billones de tokens y entrenamiento consciente de cuantización. A pesar de una ligera disminución en el rendimiento tras la cuantización, MobileMoE mantiene su competitividad, superando a otros modelos como OLMoE-1B-7B en ciertos benchmarks. Las mejoras futuras se centrarán en perfeccionar las capacidades de seguimiento de instrucciones y optimizar el uso de memoria para entradas del mundo real.