Tongyi Labは4月20日に最新の音声認識モデル「Fun-ASR 1.5」を発表しました。このモデルは現在、Alibaba CloudのBailianおよびModelScopeコミュニティを通じて利用可能で、30言語、7つの主要な中国語方言グループ、そして20以上の地域アクセントを単一のモデルでサポートしています。これにより、各方言ごとに別々のモデルを用意する必要がなくなりました。内部テストでは、前バージョンと比較して方言シナリオにおける文字誤り率が56.2%減少し、5つの方言で90%以上の精度を達成しています。 また、このモデルは古典詩の認識も強化しており、文字レベルで97%の精度を誇ります。この統合システムは、中国語方言の音声認識におけるロングテール問題に対応しており、教育のライブストリーミング、地方自治体のホットライン、インタビューの文字起こしなどの商用利用に適しており、複数の認識パイプラインを必要としないため、展開が簡素化されています。