Tongyi Lab lance Fun-ASR 1.5 avec reconnaissance dialectale améliorée

Tongyi Lab a lancé son dernier modèle de reconnaissance vocale, Fun-ASR 1.5, le 20 avril. Ce modèle, désormais disponible via Bailian d'Alibaba Cloud et la communauté ModelScope, prend en charge 30 langues, sept grands groupes de dialectes chinois et plus de 20 accents régionaux avec un seul modèle. Cela élimine le besoin de modèles séparés pour chaque dialecte. Les tests internes montrent une réduction de 56,2 % du taux d'erreur de caractères dans les scénarios dialectaux par rapport à la version précédente, avec cinq dialectes atteignant plus de 90 % de précision. Le modèle offre également une reconnaissance améliorée de la poésie classique, affichant une précision de 97 % au niveau des caractères. Ce système unifié répond au défi de la reconnaissance vocale des dialectes chinois à longue traîne, le rendant commercialement viable pour des applications telles que la diffusion en direct éducative, les lignes d'assistance des gouvernements locaux et la transcription d'entretiens, simplifiant le déploiement en supprimant le besoin de multiples pipelines de reconnaissance.

Vous pourriez aussi aimer