Nhóm LongCat của Meituan đã công khai mã nguồn khung LongCat-Video-Avatar 1.5, với hệ thống tạo video chân dung dựa trên âm thanh được nâng cấp. Phiên bản mới thay thế Wav2Vec2 bằng bộ mã hóa âm thanh Whisper-Large, cải thiện tính nhất quán về nhận dạng và khả năng tổng quát hóa phong cách trong các video dài. Khung này hiện sử dụng quy trình suy luận 8 bước, nâng cao hiệu quả và độ trung thực của hình ảnh. Các cải tiến của khung bao gồm đồng bộ môi và động lực khuôn mặt tốt hơn, đạt được nhờ bộ mã hóa âm thanh Whisper-large-v3. Nó cũng tăng cường sự ổn định theo thời gian bằng cách sử dụng suy luận cuộn đa đoạn. Việc đánh giá bao gồm 508 cặp hình ảnh-âm thanh và phản hồi từ 770 người đánh giá, làm nổi bật những tiến bộ so với các đối thủ như HeyGen và Kling Avatar 2.0. Khung hỗ trợ nhiều phong cách khác nhau, bao gồm anime và động vật, và được phát hành dưới giấy phép MIT chỉ dành cho mục đích học thuật.