A Universidade Fudan e a equipe LongCat da Meituan lançaram o WBench, um benchmark de código aberto para avaliação de modelos de geração de vídeo. O WBench avalia os modelos com base em regras físicas, consistência espaço-temporal e controle interativo, apresentando 289 casos de teste e 1.058 rodadas de interação. Ele suporta perspectivas em primeira e terceira pessoa e integra controle de navegação, ações de agentes, edição de eventos e troca de pontos de vista. O benchmark utiliza 22 métricas automatizadas, alcançando uma correlação de posto de Spearman de pelo menos 0,94 com as taxas de vitória em testes cegos humanos. Os resultados indicam que o controle interativo é amplamente independente da qualidade da renderização, com o controle de movimento da câmera falhando em garantir a consistência do agente. Modelos de código aberto como HY-World 1.5 e Matrix-Game 3.0 se destacam na navegação, mas enfrentam desafios com a identidade do agente e o desvio do ponto de vista. O benchmark destaca a complexidade de lidar com agentes não rígidos, como animais, devido a problemas de deformação e velocidade.