A Universidade Fudan e a equipe LongCat da Meituan lançaram o WBench, um benchmark de código aberto para avaliação de modelos de geração de vídeo. O WBench avalia os modelos com base em regras físicas, consistência espaço-temporal e controle interativo, apresentando 289 casos de teste e 1.058 rodadas de interação. Ele suporta perspectivas em primeira e terceira pessoa e integra controle de navegação, ações de agentes, edição de eventos e troca de pontos de vista.
O benchmark utiliza 22 métricas automatizadas, alcançando uma correlação de posto de Spearman de pelo menos 0,94 com as taxas de vitória em testes cegos humanos. Os resultados indicam que o controle interativo é amplamente independente da qualidade da renderização, com o controle de movimento da câmera falhando em garantir a consistência do agente. Modelos de código aberto como HY-World 1.5 e Matrix-Game 3.0 se destacam na navegação, mas enfrentam desafios com a identidade do agente e o desvio do ponto de vista. O benchmark destaca a complexidade de lidar com agentes não rígidos, como animais, devido a problemas de deformação e velocidade.
Fudan e Meituan LongCat lançam WBench para benchmarking de geração de vídeo
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
