El equipo LongCat de Meituan ha abierto el código del framework LongCat-Video-Avatar 1.5, que presenta un sistema mejorado de generación de videos de retratos impulsado por audio. La nueva versión reemplaza Wav2Vec2 con el codificador de audio Whisper-Large, mejorando la consistencia de identidad y la generalización de estilo en videos de larga duración. El framework ahora utiliza un proceso de inferencia de 8 pasos, mejorando la eficiencia y la fidelidad de la imagen. Las mejoras del framework incluyen una mejor sincronización labial y dinámica facial, logradas mediante el codificador de audio Whisper-large-v3. También mejora la estabilidad temporal usando inferencia rodante de múltiples segmentos. Las evaluaciones involucraron 508 pares de imagen-audio y retroalimentación de 770 evaluadores, destacando avances sobre competidores como HeyGen y Kling Avatar 2.0. El framework soporta varios estilos, incluyendo anime y animal, y está disponible bajo la licencia MIT solo para uso académico.