El equipo LongCat de Meituan ha abierto el código del framework LongCat-Video-Avatar 1.5, que presenta un sistema mejorado de generación de videos de retratos impulsado por audio. La nueva versión reemplaza Wav2Vec2 con el codificador de audio Whisper-Large, mejorando la consistencia de identidad y la generalización de estilo en videos de larga duración. El framework ahora utiliza un proceso de inferencia de 8 pasos, mejorando la eficiencia y la fidelidad de la imagen.
Las mejoras del framework incluyen una mejor sincronización labial y dinámica facial, logradas mediante el codificador de audio Whisper-large-v3. También mejora la estabilidad temporal usando inferencia rodante de múltiples segmentos. Las evaluaciones involucraron 508 pares de imagen-audio y retroalimentación de 770 evaluadores, destacando avances sobre competidores como HeyGen y Kling Avatar 2.0. El framework soporta varios estilos, incluyendo anime y animal, y está disponible bajo la licencia MIT solo para uso académico.
Meituan lanza el marco LongCat-Video-Avatar 1.5 con funciones mejoradas
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
