Nhóm LongCat của Meituan đã công khai mã nguồn khung LongCat-Video-Avatar 1.5, với hệ thống tạo video chân dung dựa trên âm thanh được nâng cấp. Phiên bản mới thay thế Wav2Vec2 bằng bộ mã hóa âm thanh Whisper-Large, cải thiện tính nhất quán về nhận dạng và khả năng tổng quát hóa phong cách trong các video dài. Khung này hiện sử dụng quy trình suy luận 8 bước, nâng cao hiệu quả và độ trung thực của hình ảnh.
Các cải tiến của khung bao gồm đồng bộ môi và động lực khuôn mặt tốt hơn, đạt được nhờ bộ mã hóa âm thanh Whisper-large-v3. Nó cũng tăng cường sự ổn định theo thời gian bằng cách sử dụng suy luận cuộn đa đoạn. Việc đánh giá bao gồm 508 cặp hình ảnh-âm thanh và phản hồi từ 770 người đánh giá, làm nổi bật những tiến bộ so với các đối thủ như HeyGen và Kling Avatar 2.0. Khung hỗ trợ nhiều phong cách khác nhau, bao gồm anime và động vật, và được phát hành dưới giấy phép MIT chỉ dành cho mục đích học thuật.
Meituan Ra Mắt Khung LongCat-Video-Avatar 1.5 với Các Tính Năng Nâng Cao
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
