Компания Sierra открыла исходный код μ-Bench — многоязычного эталонного набора данных для автоматического распознавания речи (ASR), чтобы улучшить оценку в средах обслуживания клиентов. Набор данных включает 250 реальных записей обслуживания клиентов и 4270 аннотированных аудиоклипов, что позволяет преодолеть ограничения существующих эталонов, ориентированных на английский язык. μ-Bench поддерживает пять языков — английский, испанский, турецкий, вьетнамский и мандарин, а также содержит результаты производительности от таких поставщиков, как Google и Microsoft. В эталоне введена метрика Utterance Error Rate (UER), которая различает ошибки, влияющие на смысл, и те, которые не влияют, предлагая более тонкую оценку по сравнению с традиционной метрикой Word Error Rate (WER). Google Chirp-3 лидирует по точности, тогда как Deepgram Nova-3 превосходит по скорости, но отстает в многоязычной точности. Набор данных и таблица лидеров доступны на Hugging Face, приглашая к участию других поставщиков.