xAI hat seine Grok Speech-to-Text (STT) und Text-to-Speech (TTS) APIs eingeführt, die fortschrittliche Audioverarbeitungsfunktionen bieten. Die Grok STT API liefert genaue, latenzarme Transkriptionsdienste mit Funktionen wie Wort-für-Wort-Zeitstempeln und Sprecherdiarisierung und unterstützt über 25 Sprachen. Die Preise liegen bei 0,10 USD pro Stunde für Batch-Verarbeitung und 0,20 USD pro Stunde für Streaming. Benchmark-Tests zeigen, dass ihre Leistung die führender Modelle wie ElevenLabs und Deepgram übertrifft. Die Grok TTS API bietet schnelle, natürliche Sprachsynthese mit detaillierter Steuerung über Stimm-Tags und kostet 4,20 USD pro Million Zeichen. Beide APIs nutzen den Technologie-Stack, der auch in Grok Voice, Tesla-Fahrzeugen und Starlink-Support verwendet wird, was xAIs Engagement unterstreicht, modernste Audio-Lösungen in seine Plattformen zu integrieren.