Выпуск Mega-ASR для улучшения распознавания в шуме

Национальный университет Сингапура, Технологический университет Наньян и Шанхайская лаборатория искусственного интеллекта выпустили Mega-ASR — модель распознавания речи с открытым исходным кодом, разработанную для эффективной работы в шумных условиях. Построенная на базе Qwen3-ASR 1.7B, Mega-ASR улучшает производительность до 30% по сравнению с такими моделями, как Whisper и Gemini 3 Pro. Модель доступна на GitHub под лицензией Apache-2.0. Mega-ASR была обучена на наборе данных Voices-in-the-wild-2M, который включает 2,4 миллиона образцов и имитирует 54 сложных акустических сценария. Модель использует прогрессивную контролируемую донастройку от акустики к семантике и оптимизацию политики с двойной гранулярностью по уровню ошибок слов для улучшения семантического восстановления и снижения ошибок. Динамический механизм маршрутизации обеспечивает оптимальную производительность при различном качестве аудио.

Вам также может понравиться