Meta đã giới thiệu MobileMoE, một mô hình Mixture of Experts (MoE) được tối ưu hóa cho thiết bị di động, đạt được cải tiến hiệu suất đáng kể trên điện thoại thông minh. MobileMoE-S đã chứng minh khả năng xử lý đầu vào nhanh hơn tới 3,8 lần trên GPU/MLX của iPhone 16 Pro so với các mô hình dày đặc, đồng thời duy trì mức sử dụng bộ nhớ và độ chính xác tương đương. Tiến bộ này đánh dấu lần đầu tiên thực hiện suy luận MoE hiệu quả trên điện thoại thông minh thương mại, tận dụng dung lượng DRAM tăng lên. Mô hình MobileMoE giữ nguyên kiến trúc Transformer chỉ có bộ giải mã, thay thế các lớp feed-forward dày đặc bằng các lớp MoE. Nó sử dụng quy trình đào tạo bốn giai đoạn, bao gồm tiền huấn luyện trên 6 nghìn tỷ token và đào tạo nhận thức lượng tử hóa. Mặc dù hiệu suất giảm nhẹ sau khi lượng tử hóa, MobileMoE vẫn duy trì tính cạnh tranh, vượt trội hơn các mô hình khác như OLMoE-1B-7B trong một số bài kiểm tra chuẩn. Các cải tiến trong tương lai sẽ tập trung vào việc hoàn thiện khả năng theo dõi hướng dẫn và tối ưu hóa việc sử dụng bộ nhớ cho các đầu vào thực tế.