Sierra, müşteri hizmetleri ortamlarında değerlendirmeyi geliştirmek amacıyla çok dilli otomatik konuşma tanıma (ASR) kıyaslama veri seti μ-Bench'i açık kaynak yaptı. Veri seti, mevcut İngilizce odaklı kıyaslamaların sınırlamalarını ele alarak 250 gerçek müşteri hizmetleri kaydı ve 4.270 açıklamalı ses klibi içeriyor. μ-Bench, İngilizce, İspanyolca, Türkçe, Vietnamca ve Mandarin olmak üzere beş dili destekliyor ve Google ile Microsoft gibi satıcıların performans sonuçlarını sunuyor. Kıyaslama, anlamı etkileyen hatalar ile etkilemeyenleri ayıran ve geleneksel Kelime Hata Oranı (WER) yerine daha ayrıntılı bir değerlendirme sunan Konuşma Hata Oranı (UER) metriğini tanıtıyor. Google Chirp-3 doğrulukta önde giderken, Deepgram Nova-3 hızda üstün ancak çok dilli doğrulukta geride kalıyor. Veri seti ve lider tablosu Hugging Face üzerinde mevcut olup, daha fazla satıcı katılımı davet ediliyor.