xAI ha lanzado sus APIs Grok de Reconocimiento de Voz a Texto (STT) y de Texto a Voz (TTS), ofreciendo capacidades avanzadas de procesamiento de audio. La API Grok STT proporciona servicios de transcripción precisos y de baja latencia con características como marcas de tiempo a nivel de palabra y diarización de hablantes, soportando más de 25 idiomas. Su precio es de $0.10 por hora para procesamiento por lotes y $0.20 por hora para transmisión en tiempo real. Las pruebas comparativas indican que su rendimiento supera al de modelos líderes como ElevenLabs y Deepgram. La API Grok TTS ofrece una síntesis de voz rápida y natural con control detallado mediante etiquetas de voz, con un precio de $4.20 por millón de caracteres. Ambas APIs aprovechan la pila tecnológica utilizada en Grok Voice, vehículos Tesla y soporte Starlink, destacando el compromiso de xAI con la integración de soluciones de audio de vanguardia en sus plataformas.