A Meta apresentou o MobileMoE, um modelo Mixture of Experts (MoE) otimizado para dispositivos móveis, alcançando melhorias significativas de desempenho em smartphones. O MobileMoE-S demonstrou um processamento de entrada até 3,8 vezes mais rápido no backend GPU/MLX do iPhone 16 Pro em comparação com modelos densos, mantendo uso de memória e precisão comparáveis. Este avanço marca a primeira inferência eficiente de MoE em smartphones comerciais, aproveitando a maior capacidade de DRAM. O modelo MobileMoE mantém uma arquitetura Transformer apenas com decodificador, substituindo camadas feed-forward densas por camadas MoE. Ele utiliza um processo de treinamento em quatro etapas, incluindo pré-treinamento com 6 trilhões de tokens e treinamento consciente de quantização. Apesar de pequenas quedas de desempenho após a quantização, o MobileMoE mantém competitividade, superando outros modelos como o OLMoE-1B-7B em certos benchmarks. Melhorias futuras focarão em refinar as capacidades de seguir instruções e otimizar o uso de memória para entradas do mundo real.