Sierraは、カスタマーサービス環境での評価を向上させるために、多言語自動音声認識(ASR)ベンチマークデータセットであるμ-Benchをオープンソース化しました。このデータセットには、250件の実際のカスタマーサービス録音と4,270件の注釈付き音声クリップが含まれており、既存の英語中心のベンチマークの限界に対応しています。μ-Benchは英語、スペイン語、トルコ語、ベトナム語、標準中国語の5言語をサポートし、GoogleやMicrosoftなどのベンダーのパフォーマンス結果も掲載しています。 このベンチマークは、意味に影響を与える誤りとそうでない誤りを区別する発話誤り率(UER)という指標を導入しており、従来の単語誤り率(WER)よりも詳細な評価を提供します。Google Chirp-3は精度でトップに立ち、Deepgram Nova-3は速度で優れていますが、多言語精度では遅れをとっています。データセットとリーダーボードはHugging Faceで利用可能で、さらなるベンダーの参加を呼びかけています。