A Sierra tornou público o μ-Bench, um conjunto de dados de referência multilíngue para reconhecimento automático de fala (ASR), com o objetivo de aprimorar a avaliação em ambientes de atendimento ao cliente. O conjunto de dados inclui 250 gravações reais de atendimento ao cliente e 4.270 clipes de áudio anotados, abordando as limitações dos benchmarks existentes focados no inglês. O μ-Bench suporta cinco idiomas — inglês, espanhol, turco, vietnamita e mandarim — e apresenta resultados de desempenho de fornecedores como Google e Microsoft. O benchmark introduz a métrica Taxa de Erro por Enunciado (UER), que diferencia entre erros que impactam o significado e aqueles que não o fazem, oferecendo uma avaliação mais detalhada do que a tradicional Taxa de Erro por Palavra (WER). O Google Chirp-3 lidera em precisão, enquanto o Deepgram Nova-3 se destaca em velocidade, mas fica atrás na precisão multilíngue. O conjunto de dados e o ranking estão disponíveis no Hugging Face, convidando mais fornecedores a participarem.