Das LongCat-Team von Meituan hat das LongCat-Video-Avatar 1.5 Framework als Open Source veröffentlicht, das ein verbessertes, audio-gesteuertes System zur Erstellung von Porträtvideos bietet. Die neue Version ersetzt Wav2Vec2 durch den Whisper-Large Audio-Encoder, was die Identitätskonsistenz und Stilgeneralisation in Langformvideos verbessert. Das Framework verwendet nun einen 8-Schritte-Inferenzprozess, der Effizienz und Bildqualität steigert.
Zu den Verbesserungen des Frameworks gehören eine bessere Lippen-Synchronisation und Gesichtsdynamik, erreicht durch den Whisper-large-v3 Audio-Encoder. Außerdem wird die zeitliche Stabilität durch eine mehrsegmentige rollende Inferenz verbessert. Die Bewertungen basierten auf 508 Bild-Audio-Paaren und dem Feedback von 770 Bewertern, was Fortschritte gegenüber Konkurrenten wie HeyGen und Kling Avatar 2.0 hervorhebt. Das Framework unterstützt verschiedene Stile, darunter Anime und Tiermotive, und ist unter der MIT-Lizenz ausschließlich für akademische Zwecke verfügbar.
Meituan veröffentlicht LongCat-Video-Avatar 1.5 Framework mit erweiterten Funktionen
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
