Google đã giới thiệu Gemini 3.1 Flash-Lite, một mô hình mới trong dòng Gemini 3, được thiết kế để trở thành lựa chọn nhanh nhất và tiết kiệm chi phí nhất. Sử dụng kiến trúc Mixture of Experts (MoE), nó giảm chi phí suy luận bằng cách chỉ kích hoạt một tập hợp con các tham số. Giá API được đặt ở mức 0,25 đô la cho mỗi triệu token đầu vào và 1,50 đô la cho mỗi triệu token đầu ra, rẻ hơn đáng kể so với Gemini 3.1 Pro. Gemini 3.1 Flash-Lite có các chỉ số hiệu suất được cải thiện, với độ trễ token đầu tiên giảm 2,5 lần và tốc độ đầu ra tăng 45%, đạt 363 token mỗi giây. Nó hỗ trợ lên đến 1 triệu token đầu vào và 64.000 token đầu ra, xử lý văn bản, hình ảnh, âm thanh và video. Trong các bài kiểm tra nội bộ, nó đã vượt qua GPT-5 Mini và Claude 4.5 Haiku trong sáu trên mười một bài kiểm tra, bao gồm GPQA Diamond và MMMU-Pro. Tính năng "mức độ suy nghĩ" của mô hình cho phép các nhà phát triển điều chỉnh độ sâu suy luận, tối ưu hóa chất lượng và chi phí. Truy cập xem trước có sẵn thông qua Gemini API và Vertex AI.