Google đã ra mắt Gemini 3.1 Flash TTS, một mô hình chuyển văn bản thành giọng nói thế hệ mới cho phép các nhà phát triển kiểm soát giọng nói do AI tạo ra một cách chính xác. Có sẵn thông qua Gemini API, Google AI Studio, Vertex AI và Google Vids, mô hình sử dụng "thẻ âm thanh" để điều chỉnh tông giọng, nhịp điệu và giọng địa phương, ngay cả trong câu nói. Nó hỗ trợ hơn 70 ngôn ngữ và bao gồm các dấu watermark SynthID để nhận diện nội dung. Mô hình này đứng đầu bảng xếp hạng TTS do Artificial Analysis đánh giá, với điểm Elo là 1.211, và được thiết kế để biến TTS thành một động cơ biểu diễn giọng nói có thể lập trình.