Tongyi Lab lanza Fun-ASR 1.5 con reconocimiento dialectal mejorado

Tongyi Lab lanzó su último modelo de reconocimiento de voz, Fun-ASR 1.5, el 20 de abril. El modelo, ahora disponible a través de Bailian de Alibaba Cloud y la comunidad ModelScope, soporta 30 idiomas, siete grupos principales de dialectos chinos y más de 20 acentos regionales con un solo modelo. Esto elimina la necesidad de modelos separados para cada dialecto. Las pruebas internas muestran una reducción del 56,2 % en la tasa de error de caracteres para escenarios dialectales en comparación con la versión anterior, con cinco dialectos alcanzando más del 90 % de precisión. El modelo también presenta un reconocimiento mejorado para la poesía clásica, con una precisión del 97 % a nivel de caracteres. Este sistema unificado aborda el desafío de la larga cola en el reconocimiento del habla de dialectos chinos, haciéndolo comercialmente viable para aplicaciones como transmisiones educativas en vivo, líneas directas de gobiernos locales y transcripción de entrevistas, simplificando el despliegue al eliminar la necesidad de múltiples canales de reconocimiento.

También te podría gustar