Meta hat MobileMoE vorgestellt, ein Mixture of Experts (MoE)-Modell, das für mobile Geräte optimiert ist und erhebliche Leistungsverbesserungen auf Smartphones erzielt. MobileMoE-S zeigte eine bis zu 3,8-mal schnellere Eingabeverarbeitung auf dem GPU/MLX-Backend des iPhone 16 Pro im Vergleich zu dichten Modellen, während der Speicherverbrauch und die Genauigkeit vergleichbar blieben. Dieser Fortschritt markiert die erste effiziente MoE-Inferenz auf kommerziellen Smartphones und nutzt die erhöhte DRAM-Kapazität. Das MobileMoE-Modell behält eine Decoder-only-Transformer-Architektur bei und ersetzt dichte Feed-Forward-Schichten durch MoE-Schichten. Es verwendet einen vierstufigen Trainingsprozess, einschließlich Vortraining mit 6 Billionen Tokens und quantisierungsbewusstem Training. Trotz leichter Leistungseinbußen nach der Quantisierung bleibt MobileMoE wettbewerbsfähig und übertrifft in bestimmten Benchmarks andere Modelle wie OLMoE-1B-7B. Zukünftige Verbesserungen werden sich auf die Verfeinerung der Fähigkeit zur Befolgung von Anweisungen und die Optimierung der Speichernutzung für reale Eingaben konzentrieren.