Metaは、モバイルデバイス向けに最適化されたMixture of Experts(MoE)モデルであるMobileMoEを発表しました。これにより、スマートフォンでのパフォーマンスが大幅に向上しました。MobileMoE-Sは、iPhone 16 ProのGPU/MLXバックエンドで、従来の密なモデルと比較して最大3.8倍高速な入力処理を実現し、メモリ使用量と精度は同等に維持しています。この進歩は、商用スマートフォンでの初の効率的なMoE推論を示しており、増加したDRAM容量を活用しています。 MobileMoEモデルは、デコーダーのみのTransformerアーキテクチャを保持し、密なフィードフォワード層をMoE層に置き換えています。6兆トークンでの事前学習や量子化対応トレーニングを含む4段階のトレーニングプロセスを採用しています。量子化後にわずかな性能低下が見られるものの、MobileMoEは競争力を維持し、特定のベンチマークではOLMoE-1B-7Bなどの他のモデルを上回っています。今後の改善は、指示に従う能力の向上と実際の入力に対するメモリ使用の最適化に焦点を当てる予定です。