Google hat Gemini 3.1 Flash TTS vorgestellt, ein Text-zu-Sprache-Modell der nächsten Generation, das Entwicklern ermöglicht, KI-generierte Sprache präzise zu steuern. Über die Gemini API, Google AI Studio, Vertex AI und Google Vids verfügbar, verwendet das Modell "Audio-Tags", um Ton, Rhythmus und Akzent sogar mitten im Satz anzupassen. Es unterstützt über 70 Sprachen und enthält SynthID-Wasserzeichen zur Inhaltsidentifikation. Das Modell belegt den ersten Platz auf der TTS-Bestenliste von Artificial Analysis mit einem Elo-Wert von 1.211 und ist darauf ausgelegt, TTS in eine programmierbare Sprach-Performance-Engine zu verwandeln.