xAI a lancé ses API Grok Speech-to-Text (STT) et Text-to-Speech (TTS), offrant des capacités avancées de traitement audio. L'API Grok STT fournit des services de transcription précis et à faible latence avec des fonctionnalités telles que des horodatages au niveau des mots et la diarisation des locuteurs, prenant en charge plus de 25 langues. Son tarif est de 0,10 $ par heure pour le traitement par lots et de 0,20 $ par heure pour le streaming. Les tests de référence indiquent que ses performances surpassent celles des modèles leaders tels qu'ElevenLabs et Deepgram. L'API Grok TTS offre une synthèse vocale rapide et naturelle avec un contrôle détaillé via des balises vocales, au prix de 4,20 $ par million de caractères. Les deux API exploitent la pile technologique utilisée dans Grok Voice, les véhicules Tesla et le support Starlink, soulignant l'engagement de xAI à intégrer des solutions audio de pointe sur ses plateformes.