xAI đã ra mắt các API Grok Speech-to-Text (STT) và Text-to-Speech (TTS), cung cấp các khả năng xử lý âm thanh tiên tiến. API Grok STT cung cấp dịch vụ chuyển đổi giọng nói thành văn bản chính xác, độ trễ thấp với các tính năng như dấu thời gian ở cấp độ từ và phân biệt người nói, hỗ trợ hơn 25 ngôn ngữ. Giá của dịch vụ là 0,10 USD mỗi giờ cho xử lý theo lô và 0,20 USD mỗi giờ cho phát trực tiếp. Các bài kiểm tra chuẩn cho thấy hiệu suất của nó vượt trội hơn so với các mô hình hàng đầu như ElevenLabs và Deepgram. API Grok TTS cung cấp tổng hợp giọng nói nhanh chóng, tự nhiên với khả năng kiểm soát chi tiết thông qua các thẻ giọng nói, giá 4,20 USD cho mỗi triệu ký tự. Cả hai API đều tận dụng ngăn xếp công nghệ được sử dụng trong Grok Voice, các phương tiện Tesla và hỗ trợ Starlink, nhấn mạnh cam kết của xAI trong việc tích hợp các giải pháp âm thanh tiên tiến trên các nền tảng của mình.