Google запустила Gemini 3.1 Flash TTS — модель синтеза речи нового поколения, которая позволяет разработчикам точно контролировать речь, сгенерированную ИИ. Модель доступна через Gemini API, Google AI Studio, Vertex AI и Google Vids. Она использует «аудиотеги» для настройки тона, ритма и акцента, даже в середине предложения. Поддерживается более 70 языков, а также включены водяные знаки SynthID для идентификации контента. Модель занимает первое место в рейтинге TTS по версии Artificial Analysis с рейтингом Эло 1211 и предназначена для преобразования синтеза речи в программируемый голосовой исполнительный движок.