Sierra a rendu open source μ-Bench, un ensemble de données de référence multilingue pour la reconnaissance automatique de la parole (ASR), afin d'améliorer l'évaluation dans les environnements de service client. L'ensemble de données comprend 250 enregistrements réels de service client et 4 270 extraits audio annotés, répondant ainsi aux limites des benchmarks existants centrés sur l'anglais. μ-Bench prend en charge cinq langues — anglais, espagnol, turc, vietnamien et mandarin — et présente les résultats de performance de fournisseurs tels que Google et Microsoft. Ce benchmark introduit la métrique Utterance Error Rate (UER), qui différencie les erreurs impactant le sens de celles qui ne l'affectent pas, offrant une évaluation plus nuancée que le traditionnel taux d'erreur sur les mots (WER). Google Chirp-3 est en tête en termes de précision, tandis que Deepgram Nova-3 excelle en vitesse mais accuse un retard en précision multilingue. L'ensemble de données et le classement sont disponibles sur Hugging Face, invitant à une participation accrue des fournisseurs.