Đại học Fudan và nhóm LongCat của Meituan đã phát hành WBench, một bộ chuẩn mở để đánh giá các mô hình tạo video. WBench đánh giá các mô hình dựa trên các quy tắc vật lý, tính nhất quán không gian-thời gian và điều khiển tương tác, với 289 trường hợp kiểm tra và 1.058 vòng tương tác. Nó hỗ trợ cả góc nhìn người thứ nhất và người thứ ba, đồng thời tích hợp điều khiển điều hướng, hành động của tác nhân, chỉnh sửa sự kiện và chuyển đổi góc nhìn. Bộ chuẩn sử dụng 22 chỉ số tự động, đạt hệ số tương quan xếp hạng Spearman ít nhất 0,94 với tỷ lệ thắng trong các bài kiểm tra mù của con người. Các phát hiện cho thấy điều khiển tương tác phần lớn độc lập với chất lượng kết xuất, với việc điều khiển chuyển động camera không đảm bảo được tính nhất quán của tác nhân. Các mô hình mã nguồn mở như HY-World 1.5 và Matrix-Game 3.0 xuất sắc trong điều hướng nhưng gặp khó khăn với nhận dạng tác nhân và trôi góc nhìn. Bộ chuẩn nhấn mạnh sự phức tạp trong việc xử lý các tác nhân không cứng nhắc, như động vật, do các vấn đề biến dạng và vận tốc.