Xiaomi AI Lab ha presentado OmniVoice, un modelo de clonación de voz de código abierto capaz de soportar 646 idiomas. Este modelo de texto a voz (TTS) de cero disparos puede clonar voces utilizando solo unos segundos de audio de referencia y generar discurso en múltiples idiomas, manteniendo las características de la voz original. El código, los pesos y los datos de entrenamiento del modelo están disponibles bajo la licencia Apache-2.0.
OmniVoice presenta una arquitectura minimalista con un único Transformer bidireccional que mapea el texto directamente a tokens acústicos, evitando los procesos tradicionales de múltiples etapas. Emplea innovaciones como el enmascaramiento aleatorio de código completo y la inicialización de parámetros preentrenados para mejorar la eficiencia y la precisión en la pronunciación. El modelo, entrenado con 580,000 horas de datos de código abierto, destaca en la similitud de voz y la inteligibilidad, incluso para idiomas con pocos recursos. Las características adicionales incluyen personalización de voz basada en texto y reducción automática de ruido.
Xiaomi libera el código de OmniVoice, un modelo de clonación de voz en 646 idiomas
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
