Meituan veröffentlicht LongCat-Video-Avatar 1.5 Framework

Das LongCat-Team von Meituan hat das LongCat-Video-Avatar 1.5 Framework als Open Source veröffentlicht, das ein verbessertes, audio-gesteuertes System zur Erstellung von Porträtvideos bietet. Die neue Version ersetzt Wav2Vec2 durch den Whisper-Large Audio-Encoder, was die Identitätskonsistenz und Stilgeneralisation in Langformvideos verbessert. Das Framework verwendet nun einen 8-Schritte-Inferenzprozess, der Effizienz und Bildqualität steigert. Zu den Verbesserungen des Frameworks gehören eine bessere Lippen-Synchronisation und Gesichtsdynamik, erreicht durch den Whisper-large-v3 Audio-Encoder. Außerdem wird die zeitliche Stabilität durch eine mehrsegmentige rollende Inferenz verbessert. Die Bewertungen basierten auf 508 Bild-Audio-Paaren und dem Feedback von 770 Bewertern, was Fortschritte gegenüber Konkurrenten wie HeyGen und Kling Avatar 2.0 hervorhebt. Das Framework unterstützt verschiedene Stile, darunter Anime und Tiermotive, und ist unter der MIT-Lizenz ausschließlich für akademische Zwecke verfügbar.