Google startet kostengünstiges Gemini 3.1 Flash-Lite

Google hat Gemini 3.1 Flash-Lite vorgestellt, ein neues Modell der Gemini 3-Serie, das als schnellste und kosteneffektivste Option konzipiert ist. Durch die Nutzung einer Mixture of Experts (MoE)-Architektur werden die Inferenzkosten gesenkt, indem nur ein Teil der Parameter aktiviert wird. Die API-Preise liegen bei 0,25 USD pro Million Eingabetoken und 1,50 USD pro Million Ausgabetoken, was deutlich günstiger ist als Gemini 3.1 Pro. Gemini 3.1 Flash-Lite bietet verbesserte Leistungskennzahlen mit einer 2,5-fachen Reduzierung der Latenzzeit für das erste Token und einer 45%igen Steigerung der Ausgabegeschwindigkeit, die 363 Tokens pro Sekunde erreicht. Es unterstützt bis zu 1 Million Eingabetoken und 64.000 Ausgabetoken und verarbeitet Texte, Bilder, Audio- und Videoeingaben. In internen Benchmarks übertraf es GPT-5 Mini und Claude 4.5 Haiku in sechs von elf Tests, darunter GPQA Diamond und MMMU-Pro. Die Funktion "Denkstufe" des Modells ermöglicht es Entwicklern, die Inferenztiefe anzupassen, um Qualität und Kosten zu optimieren. Eine Vorschau ist über die Gemini API und Vertex AI verfügbar.