구글, 첨단 AI 음성 제어를 위한 Gemini 3.1 플래시 TTS 공개

구글은 개발자가 AI 생성 음성을 정밀하게 제어할 수 있는 차세대 텍스트 음성 변환 모델인 Gemini 3.1 Flash TTS를 출시했습니다. Gemini API, Google AI Studio, Vertex AI, Google Vids를 통해 이용할 수 있는 이 모델은 "오디오 태그"를 사용하여 문장 중간에도 톤, 리듬, 억양을 조절할 수 있습니다. 70개 이상의 언어를 지원하며, 콘텐츠 식별을 위한 SynthID 워터마크도 포함되어 있습니다. 이 모델은 Artificial Analysis의 TTS 리더보드에서 Elo 점수 1,211로 1위를 차지했으며, TTS를 프로그래밍 가능한 음성 퍼포먼스 엔진으로 변모시키도록 설계되었습니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.