Meituan'ın LongCat ekibi, geliştirilmiş sesle çalışan portre video üretim sistemi içeren LongCat-Video-Avatar 1.5 çerçevesini açık kaynak yaptı. Yeni sürüm, Wav2Vec2 yerine Whisper-Large ses kodlayıcısını kullanarak uzun videolarda kimlik tutarlılığı ve stil genellemesini artırıyor. Çerçeve artık verimlilik ve görüntü kalitesini artıran 8 adımlı çıkarım süreci kullanıyor.
Çerçevenin geliştirmeleri, Whisper-large-v3 ses kodlayıcısı sayesinde daha iyi dudak senkronizasyonu ve yüz dinamiklerini içeriyor. Ayrıca çoklu segmentli sürekli çıkarım kullanarak zamansal kararlılığı artırıyor. Değerlendirmeler 508 görüntü-ses çifti ve 770 değerlendiricinin geri bildirimiyle yapıldı ve HeyGen ile Kling Avatar 2.0 gibi rakiplere karşı ilerlemeler vurgulandı. Çerçeve, anime ve hayvan dahil çeşitli stilleri destekliyor ve sadece akademik kullanım için MIT lisansı altında sunuluyor.
Meituan, Geliştirilmiş Özelliklerle LongCat-Video-Avatar 1.5 Çerçevesini Yayınladı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
