Google lanza Gemini 3.1 Flash-Lite económico

Google ha presentado Gemini 3.1 Flash-Lite, un nuevo modelo de la serie Gemini 3, diseñado para ser la opción más rápida y rentable. Utilizando una arquitectura de Mezcla de Expertos (MoE), reduce los costos de inferencia activando solo un subconjunto de parámetros. El precio de la API se establece en $0.25 por millón de tokens de entrada y $1.50 por millón de tokens de salida, significativamente más barato que el Gemini 3.1 Pro. Gemini 3.1 Flash-Lite presenta métricas de rendimiento mejoradas, con una reducción de 2.5 veces en la latencia del primer token y un aumento del 45% en la velocidad de salida, alcanzando 363 tokens por segundo. Soporta hasta 1 millón de tokens de entrada y 64,000 tokens de salida, manejando entradas de texto, imágenes, audio y video. En pruebas internas, superó a GPT-5 Mini y Claude 4.5 Haiku en seis de once pruebas, incluyendo GPQA Diamond y MMMU-Pro. La función "nivel de pensamiento" del modelo permite a los desarrolladores ajustar la profundidad de inferencia, optimizando la calidad y el costo. El acceso previo está disponible a través de la API de Gemini y Vertex AI.