xAI는 고급 오디오 처리 기능을 제공하는 Grok 음성-텍스트(STT) 및 텍스트-음성(TTS) API를 출시했습니다. Grok STT API는 단어 수준 타임스탬프 및 화자 분리와 같은 기능을 갖춘 정확하고 저지연의 전사 서비스를 제공하며, 25개 이상의 언어를 지원합니다. 배치 처리의 경우 시간당 0.10달러, 스트리밍의 경우 시간당 0.20달러로 가격이 책정되어 있습니다. 벤치마크 테스트 결과, 이 API의 성능은 ElevenLabs 및 Deepgram과 같은 주요 모델을 능가하는 것으로 나타났습니다. Grok TTS API는 음성 태그를 통한 세밀한 제어가 가능한 빠르고 자연스러운 음성 합성을 제공하며, 백만 문자당 4.20달러에 가격이 책정되어 있습니다. 두 API 모두 Grok Voice, Tesla 차량 및 Starlink 지원에 사용되는 기술 스택을 활용하여 xAI가 자사의 플랫폼 전반에 최첨단 오디오 솔루션을 통합하려는 의지를 강조합니다.