L'équipe LongCat de Meituan a rendu open source le framework LongCat-Video-Avatar 1.5, qui comprend un système amélioré de génération de vidéos de portraits piloté par audio. La nouvelle version remplace Wav2Vec2 par l'encodeur audio Whisper-Large, renforçant la cohérence d'identité et la généralisation du style dans les vidéos longues. Le framework utilise désormais un processus d'inférence en 8 étapes, améliorant l'efficacité et la fidélité de l'image. Les améliorations du framework incluent une meilleure synchronisation labiale et des dynamiques faciales, obtenues grâce à l'encodeur audio Whisper-large-v3. Il améliore également la stabilité temporelle en utilisant une inférence roulante multi-segments. Les évaluations ont porté sur 508 paires image-audio et les retours de 770 évaluateurs, mettant en avant des progrès par rapport à des concurrents comme HeyGen et Kling Avatar 2.0. Le framework prend en charge divers styles, y compris l'anime et les animaux, et est disponible sous licence MIT uniquement pour un usage académique.