Google запускает бюджетный Gemini 3.1 Flash-Lite

Google представила Gemini 3.1 Flash-Lite, новую модель в серии Gemini 3, разработанную как самый быстрый и экономичный вариант. Используя архитектуру Mixture of Experts (MoE), она снижает затраты на вывод, активируя только подмножество параметров. Стоимость API установлена на уровне $0,25 за миллион входных токенов и $1,50 за миллион выходных токенов, что значительно дешевле, чем у Gemini 3.1 Pro. Gemini 3.1 Flash-Lite демонстрирует улучшенные показатели производительности: задержка первого токена уменьшена в 2,5 раза, а скорость вывода увеличена на 45%, достигая 363 токенов в секунду. Модель поддерживает до 1 миллиона входных токенов и 64 000 выходных токенов, обрабатывая текст, изображения, аудио и видео. В внутренних тестах она превзошла GPT-5 Mini и Claude 4.5 Haiku в шести из одиннадцати испытаний, включая GPQA Diamond и MMMU-Pro. Функция "уровень мышления" позволяет разработчикам регулировать глубину вывода, оптимизируя качество и стоимость. Предварительный доступ доступен через Gemini API и Vertex AI.