Национальный университет Сингапура, Технологический университет Наньян и Шанхайская лаборатория искусственного интеллекта выпустили Mega-ASR — модель распознавания речи с открытым исходным кодом, разработанную для эффективной работы в шумных условиях. Построенная на базе Qwen3-ASR 1.7B, Mega-ASR улучшает производительность до 30% по сравнению с такими моделями, как Whisper и Gemini 3 Pro. Модель доступна на GitHub под лицензией Apache-2.0.
Mega-ASR была обучена на наборе данных Voices-in-the-wild-2M, который включает 2,4 миллиона образцов и имитирует 54 сложных акустических сценария. Модель использует прогрессивную контролируемую донастройку от акустики к семантике и оптимизацию политики с двойной гранулярностью по уровню ошибок слов для улучшения семантического восстановления и снижения ошибок. Динамический механизм маршрутизации обеспечивает оптимальную производительность при различном качестве аудио.
Mega-ASR стал открытым исходным кодом для улучшения распознавания речи в шумных условиях
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
