Google a présenté Gemini 3.1 Flash-Lite, un nouveau modèle de la série Gemini 3, conçu pour être l'option la plus rapide et la plus économique. Utilisant une architecture Mixture of Experts (MoE), il réduit les coûts d'inférence en activant uniquement un sous-ensemble de paramètres. Le tarif de l'API est fixé à 0,25 $ par million de tokens d'entrée et 1,50 $ par million de tokens de sortie, ce qui est nettement moins cher que le Gemini 3.1 Pro.
Gemini 3.1 Flash-Lite affiche des performances améliorées, avec une réduction de 2,5 fois de la latence du premier token et une augmentation de 45 % de la vitesse de sortie, atteignant 363 tokens par seconde. Il prend en charge jusqu'à 1 million de tokens d'entrée et 64 000 tokens de sortie, traitant des entrées de texte, d'images, d'audio et de vidéo. Lors des benchmarks internes, il a surpassé GPT-5 Mini et Claude 4.5 Haiku dans six des onze tests, y compris GPQA Diamond et MMMU-Pro. La fonction "niveau de réflexion" du modèle permet aux développeurs d'ajuster la profondeur d'inférence, optimisant ainsi la qualité et le coût. Un accès en avant-première est disponible via l'API Gemini et Vertex AI.
Google dévoile Gemini 3.1 Flash-Lite, réduisant les coûts et surpassant ses concurrents
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
