A xAI lançou suas APIs Grok de Reconhecimento de Fala para Texto (STT) e Texto para Fala (TTS), oferecendo capacidades avançadas de processamento de áudio. A API Grok STT fornece serviços de transcrição precisos e com baixa latência, com recursos como carimbos de tempo ao nível da palavra e diarização de falantes, suportando mais de 25 idiomas. O preço é de US$ 0,10 por hora para processamento em lote e US$ 0,20 por hora para streaming. Testes de benchmark indicam que seu desempenho supera o de modelos líderes como ElevenLabs e Deepgram. A API Grok TTS oferece síntese de fala rápida e natural com controle detalhado por meio de tags de voz, com preço de US$ 4,20 por milhão de caracteres. Ambas as APIs utilizam a pilha tecnológica usada no Grok Voice, veículos Tesla e suporte Starlink, destacando o compromisso da xAI em integrar soluções de áudio de ponta em suas plataformas.