L'équipe LongCat de Meituan a rendu open source le framework LongCat-Video-Avatar 1.5, qui comprend un système amélioré de génération de vidéos de portraits piloté par audio. La nouvelle version remplace Wav2Vec2 par l'encodeur audio Whisper-Large, renforçant la cohérence d'identité et la généralisation du style dans les vidéos longues. Le framework utilise désormais un processus d'inférence en 8 étapes, améliorant l'efficacité et la fidélité de l'image.
Les améliorations du framework incluent une meilleure synchronisation labiale et des dynamiques faciales, obtenues grâce à l'encodeur audio Whisper-large-v3. Il améliore également la stabilité temporelle en utilisant une inférence roulante multi-segments. Les évaluations ont porté sur 508 paires image-audio et les retours de 770 évaluateurs, mettant en avant des progrès par rapport à des concurrents comme HeyGen et Kling Avatar 2.0. Le framework prend en charge divers styles, y compris l'anime et les animaux, et est disponible sous licence MIT uniquement pour un usage académique.
Meituan publie le cadre LongCat-Video-Avatar 1.5 avec des fonctionnalités améliorées
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
