Microsoft и Университет Чжэцзян представляют World-R1 для 3D видео

Microsoft Research и Чжэцзянский университет представили World-R1 — новый метод, который улучшает 3D-геометрическую согласованность в моделях преобразования текста в видео с помощью обучения с подкреплением. Этот подход не требует изменений в архитектуре модели или 3D-датасетах. World-R1 восстанавливает 3D-гауссианы из сгенерированных видео с использованием модели Depth Anything 3, визуализируя сцены под новыми углами и сравнивая их с оригиналом. Для настройки видеомодели используется алгоритм обучения с подкреплением Flow-GRPO, который учитывает ошибку реконструкции, отклонение траектории и семантическую правдоподобность. Метод использует открытый исходный код модели Wan 2.1, при этом версии World-R1-Small и World-R1-Large демонстрируют значительные улучшения в метриках 3D-согласованности. В частности, версия Large улучшает PSNR на 7,91 дБ, а версия Small — на 10,23 дБ. В слепых тестах World-R1 достиг 92% побед по геометрической согласованности. Проект открыт на GitHub под лицензией CC BY-NC-SA 4.0.

Вам также может понравиться