Tongyi Lab запустила свою последнюю модель распознавания речи Fun-ASR 1.5 20 апреля. Модель, теперь доступная через Bailian от Alibaba Cloud и сообщество ModelScope, поддерживает 30 языков, семь основных групп китайских диалектов и более 20 региональных акцентов в одной модели. Это устраняет необходимость в отдельных моделях для каждого диалекта. Внутренние тесты показывают снижение ошибки символов на 56,2% в сценариях с диалектами по сравнению с предыдущей версией, при этом пять диалектов достигают точности более 90%. Модель также обладает улучшенным распознаванием классической поэзии, демонстрируя точность на уровне символов в 97%. Эта унифицированная система решает проблему "длинного хвоста" в распознавании китайских диалектов, делая её коммерчески жизнеспособной для таких приложений, как образовательные прямые трансляции, горячие линии местных органов власти и транскрипция интервью, упрощая развертывание за счёт устранения необходимости в нескольких конвейерах распознавания.