Xiaomi AI Lab ha presentado OmniVoice, un modelo de clonación de voz de código abierto capaz de soportar 646 idiomas. Este modelo de texto a voz (TTS) de cero disparos puede clonar voces utilizando solo unos segundos de audio de referencia y generar discurso en múltiples idiomas, manteniendo las características de la voz original. El código, los pesos y los datos de entrenamiento del modelo están disponibles bajo la licencia Apache-2.0. OmniVoice presenta una arquitectura minimalista con un único Transformer bidireccional que mapea el texto directamente a tokens acústicos, evitando los procesos tradicionales de múltiples etapas. Emplea innovaciones como el enmascaramiento aleatorio de código completo y la inicialización de parámetros preentrenados para mejorar la eficiencia y la precisión en la pronunciación. El modelo, entrenado con 580,000 horas de datos de código abierto, destaca en la similitud de voz y la inteligibilidad, incluso para idiomas con pocos recursos. Las características adicionales incluyen personalización de voz basada en texto y reducción automática de ruido.