구글은 개발자가 AI 생성 음성을 정밀하게 제어할 수 있는 차세대 텍스트 음성 변환 모델인 Gemini 3.1 Flash TTS를 출시했습니다. Gemini API, Google AI Studio, Vertex AI, Google Vids를 통해 이용할 수 있는 이 모델은 "오디오 태그"를 사용하여 문장 중간에도 톤, 리듬, 억양을 조절할 수 있습니다. 70개 이상의 언어를 지원하며, 콘텐츠 식별을 위한 SynthID 워터마크도 포함되어 있습니다. 이 모델은 Artificial Analysis의 TTS 리더보드에서 Elo 점수 1,211로 1위를 차지했으며, TTS를 프로그래밍 가능한 음성 퍼포먼스 엔진으로 변모시키도록 설계되었습니다.