xAIは、高度な音声処理機能を提供するGrokの音声認識(STT)および音声合成(TTS)APIを発表しました。Grok STT APIは、単語単位のタイムスタンプや話者分離などの機能を備え、25以上の言語に対応した正確で低遅延の文字起こしサービスを提供します。料金はバッチ処理で1時間あたり0.10ドル、ストリーミングで1時間あたり0.20ドルです。ベンチマークテストでは、ElevenLabsやDeepgramなどの主要モデルを上回る性能を示しています。 Grok TTS APIは、音声タグによる詳細な制御が可能な高速で自然な音声合成を実現し、料金は100万文字あたり4.20ドルです。両APIはGrok Voice、テスラ車両、Starlinkサポートで使用されている技術スタックを活用しており、xAIが最先端の音声ソリューションをプラットフォーム全体に統合することに注力していることを示しています。