Meituan'ın LongCat ekibi, geliştirilmiş sesle çalışan portre video üretim sistemi içeren LongCat-Video-Avatar 1.5 çerçevesini açık kaynak yaptı. Yeni sürüm, Wav2Vec2 yerine Whisper-Large ses kodlayıcısını kullanarak uzun videolarda kimlik tutarlılığı ve stil genellemesini artırıyor. Çerçeve artık verimlilik ve görüntü kalitesini artıran 8 adımlı çıkarım süreci kullanıyor. Çerçevenin geliştirmeleri, Whisper-large-v3 ses kodlayıcısı sayesinde daha iyi dudak senkronizasyonu ve yüz dinamiklerini içeriyor. Ayrıca çoklu segmentli sürekli çıkarım kullanarak zamansal kararlılığı artırıyor. Değerlendirmeler 508 görüntü-ses çifti ve 770 değerlendiricinin geri bildirimiyle yapıldı ve HeyGen ile Kling Avatar 2.0 gibi rakiplere karşı ilerlemeler vurgulandı. Çerçeve, anime ve hayvan dahil çeşitli stilleri destekliyor ve sadece akademik kullanım için MIT lisansı altında sunuluyor.