시에라는 고객 서비스 환경에서 평가를 향상시키기 위해 다국어 자동 음성 인식(ASR) 벤치마크 데이터셋인 μ-Bench를 오픈소스로 공개했습니다. 이 데이터셋에는 250개의 실제 고객 서비스 녹음과 4,270개의 주석이 달린 오디오 클립이 포함되어 있어 기존의 영어 중심 벤치마크의 한계를 보완합니다. μ-Bench는 영어, 스페인어, 터키어, 베트남어, 만다린어 등 5개 언어를 지원하며, 구글과 마이크로소프트 같은 벤더들의 성능 결과를 제공합니다. 이 벤치마크는 의미에 영향을 미치는 오류와 그렇지 않은 오류를 구분하는 발화 오류율(UER) 지표를 도입하여 기존의 단어 오류율(WER)보다 더 세밀한 평가를 제공합니다. 구글 Chirp-3가 정확도에서 선두를 달리고 있으며, Deepgram Nova-3는 속도에서는 뛰어나지만 다국어 정확도에서는 뒤처집니다. 데이터셋과 리더보드는 Hugging Face에서 제공되며, 추가 벤더 참여를 환영합니다.