O Google lançou o Gemini 3.1 Flash-Lite, um novo modelo da série Gemini 3, projetado para ser a opção mais rápida e econômica. Utilizando uma arquitetura Mixture of Experts (MoE), ele reduz os custos de inferência ativando apenas um subconjunto de parâmetros. O preço da API está definido em US$ 0,25 por milhão de tokens de entrada e US$ 1,50 por milhão de tokens de saída, significativamente mais barato que o Gemini 3.1 Pro. O Gemini 3.1 Flash-Lite apresenta métricas de desempenho aprimoradas, com uma redução de 2,5 vezes na latência do primeiro token e um aumento de 45% na velocidade de saída, alcançando 363 tokens por segundo. Ele suporta até 1 milhão de tokens de entrada e 64.000 tokens de saída, lidando com entradas de texto, imagens, áudio e vídeo. Em benchmarks internos, superou o GPT-5 Mini e o Claude 4.5 Haiku em seis dos onze testes, incluindo GPQA Diamond e MMMU-Pro. O recurso "nível de pensamento" do modelo permite que os desenvolvedores ajustem a profundidade da inferência, otimizando qualidade e custo. O acesso antecipado está disponível através da API Gemini e do Vertex AI.