Mega-ASR als Open Source veröffentlicht, um Spracherkennung in lauten Umgebungen zu verbessern

Die National University of Singapore, die Nanyang Technological University und das Shanghai Artificial Intelligence Laboratory haben Mega-ASR veröffentlicht, ein Open-Source-Spracherkennungsmodell, das speziell für den Einsatz in lauten Umgebungen entwickelt wurde. Basierend auf dem Qwen3-ASR 1,7B Backbone verbessert Mega-ASR die Leistung um bis zu 30 % im Vergleich zu Modellen wie Whisper und Gemini 3 Pro. Das Modell ist unter der Apache-2.0-Lizenz auf GitHub verfügbar. Mega-ASR wurde mit dem Voices-in-the-wild-2M-Datensatz trainiert, der 2,4 Millionen Proben enthält und 54 komplexe akustische Szenarien simuliert. Das Modell verwendet Acoustic-to-Semantic Progressive Supervised Fine-Tuning und Dual-Granularity Word Error Rate-Gated Policy Optimization, um die semantische Wiederherstellung zu verbessern und Fehler zu reduzieren. Ein dynamischer Routing-Mechanismus sorgt für optimale Leistung bei unterschiedlichen Audioqualitäten.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.

Das könnte Ihnen auch gefallen