Singapur Ulusal Üniversitesi, Nanyang Teknoloji Üniversitesi ve Şanghay Yapay Zeka Laboratuvarı, gürültülü ortamlarda üstün performans göstermek üzere tasarlanmış açık kaynaklı bir konuşma tanıma modeli olan Mega-ASR'yi yayımladı. Qwen3-ASR 1.7B omurgası üzerine inşa edilen Mega-ASR, Whisper ve Gemini 3 Pro gibi modellere kıyasla performansı %30'a kadar artırıyor. Model, Apache-2.0 lisansı altında GitHub'da erişilebilir durumdadır.
Mega-ASR, 2,4 milyon örnek içeren ve 54 karmaşık akustik senaryoyu simüle eden Voices-in-the-wild-2M veri seti kullanılarak eğitildi. Model, anlamsal iyileştirmeyi artırmak ve hataları azaltmak için Akustik'ten Anlamsala Kademeli Denetimli İnce Ayar ve Çift-Granülerlikte Kelime Hata Oranı Kontrollü Politika Optimizasyonu yöntemlerini kullanır. Dinamik bir yönlendirme mekanizması, farklı ses kalitelerinde optimal performansı garanti eder.
Mega-ASR, Gürültülü Ortamlarda Konuşma Tanımayı Geliştirmek İçin Açık Kaynak Yapıldı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
