Google lance Gemini 3.1 Flash-Lite économique

Google a présenté Gemini 3.1 Flash-Lite, un nouveau modèle de la série Gemini 3, conçu pour être l'option la plus rapide et la plus économique. Utilisant une architecture Mixture of Experts (MoE), il réduit les coûts d'inférence en activant uniquement un sous-ensemble de paramètres. Le tarif de l'API est fixé à 0,25 $ par million de tokens d'entrée et 1,50 $ par million de tokens de sortie, ce qui est nettement moins cher que le Gemini 3.1 Pro. Gemini 3.1 Flash-Lite affiche des performances améliorées, avec une réduction de 2,5 fois de la latence du premier token et une augmentation de 45 % de la vitesse de sortie, atteignant 363 tokens par seconde. Il prend en charge jusqu'à 1 million de tokens d'entrée et 64 000 tokens de sortie, traitant des entrées de texte, d'images, d'audio et de vidéo. Lors des benchmarks internes, il a surpassé GPT-5 Mini et Claude 4.5 Haiku dans six des onze tests, y compris GPQA Diamond et MMMU-Pro. La fonction "niveau de réflexion" du modèle permet aux développeurs d'ajuster la profondeur d'inférence, optimisant ainsi la qualité et le coût. Un accès en avant-première est disponible via l'API Gemini et Vertex AI.