Tongyi Lab a lancé son dernier modèle de reconnaissance vocale, Fun-ASR 1.5, le 20 avril. Ce modèle, désormais disponible via Bailian d'Alibaba Cloud et la communauté ModelScope, prend en charge 30 langues, sept grands groupes de dialectes chinois et plus de 20 accents régionaux avec un seul modèle. Cela élimine le besoin de modèles séparés pour chaque dialecte. Les tests internes montrent une réduction de 56,2 % du taux d'erreur de caractères dans les scénarios dialectaux par rapport à la version précédente, avec cinq dialectes atteignant plus de 90 % de précision.
Le modèle offre également une reconnaissance améliorée de la poésie classique, affichant une précision de 97 % au niveau des caractères. Ce système unifié répond au défi de la reconnaissance vocale des dialectes chinois à longue traîne, le rendant commercialement viable pour des applications telles que la diffusion en direct éducative, les lignes d'assistance des gouvernements locaux et la transcription d'entretiens, simplifiant le déploiement en supprimant le besoin de multiples pipelines de reconnaissance.
Tongyi Lab dévoile Fun-ASR 1.5 avec reconnaissance avancée des dialectes
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
