Sierra hat μ-Bench, einen mehrsprachigen Benchmark-Datensatz für automatische Spracherkennung (ASR), als Open Source veröffentlicht, um die Bewertung in Kundenservice-Umgebungen zu verbessern. Der Datensatz umfasst 250 echte Kundenservice-Aufnahmen und 4.270 annotierte Audioclips und adressiert damit die Einschränkungen bestehender, auf Englisch fokussierter Benchmarks. μ-Bench unterstützt fünf Sprachen – Englisch, Spanisch, Türkisch, Vietnamesisch und Mandarin – und enthält Leistungsergebnisse von Anbietern wie Google und Microsoft. Der Benchmark führt die Metrik Utterance Error Rate (UER) ein, die zwischen Fehlern unterscheidet, die die Bedeutung beeinflussen, und solchen, die dies nicht tun, und somit eine differenziertere Bewertung als die traditionelle Word Error Rate (WER) bietet. Google Chirp-3 führt in der Genauigkeit, während Deepgram Nova-3 in der Geschwindigkeit überzeugt, aber bei der mehrsprachigen Genauigkeit zurückliegt. Der Datensatz und die Bestenliste sind auf Hugging Face verfügbar und laden weitere Anbieter zur Teilnahme ein.