Đại học Fudan và nhóm LongCat của Meituan đã phát hành WBench, một bộ chuẩn mở để đánh giá các mô hình tạo video. WBench đánh giá các mô hình dựa trên các quy tắc vật lý, tính nhất quán không gian-thời gian và điều khiển tương tác, với 289 trường hợp kiểm tra và 1.058 vòng tương tác. Nó hỗ trợ cả góc nhìn người thứ nhất và người thứ ba, đồng thời tích hợp điều khiển điều hướng, hành động của tác nhân, chỉnh sửa sự kiện và chuyển đổi góc nhìn.
Bộ chuẩn sử dụng 22 chỉ số tự động, đạt hệ số tương quan xếp hạng Spearman ít nhất 0,94 với tỷ lệ thắng trong các bài kiểm tra mù của con người. Các phát hiện cho thấy điều khiển tương tác phần lớn độc lập với chất lượng kết xuất, với việc điều khiển chuyển động camera không đảm bảo được tính nhất quán của tác nhân. Các mô hình mã nguồn mở như HY-World 1.5 và Matrix-Game 3.0 xuất sắc trong điều hướng nhưng gặp khó khăn với nhận dạng tác nhân và trôi góc nhìn. Bộ chuẩn nhấn mạnh sự phức tạp trong việc xử lý các tác nhân không cứng nhắc, như động vật, do các vấn đề biến dạng và vận tốc.
Fudan và Meituan LongCat ra mắt WBench để đánh giá hiệu suất tạo video
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
