Sierra ha hecho de código abierto μ-Bench, un conjunto de datos de referencia multilingüe para el reconocimiento automático de voz (ASR), con el fin de mejorar la evaluación en entornos de servicio al cliente. El conjunto de datos incluye 250 grabaciones reales de servicio al cliente y 4,270 clips de audio anotados, abordando las limitaciones de los benchmarks existentes centrados en el inglés. μ-Bench soporta cinco idiomas: inglés, español, turco, vietnamita y mandarín, y presenta resultados de rendimiento de proveedores como Google y Microsoft. El benchmark introduce la métrica Tasa de Error de Enunciado (UER), que diferencia entre errores que afectan el significado y aquellos que no, ofreciendo una evaluación más matizada que la tradicional Tasa de Error de Palabra (WER). Google Chirp-3 lidera en precisión, mientras que Deepgram Nova-3 destaca en velocidad pero queda rezagado en precisión multilingüe. El conjunto de datos y la tabla de clasificación están disponibles en Hugging Face, invitando a una mayor participación de proveedores.