Microsoft Research và Đại học Zhejiang đã ra mắt World-R1, một phương pháp mới cải thiện tính nhất quán hình học 3D trong các mô hình chuyển đổi văn bản thành video bằng cách sử dụng học tăng cường. Phương pháp này không yêu cầu thay đổi kiến trúc mô hình hay bộ dữ liệu 3D. World-R1 tái tạo các Gaussian 3D từ các video được tạo ra bằng mô hình Depth Anything 3, kết xuất các cảnh từ các góc nhìn mới và so sánh chúng với bản gốc. Thuật toán học tăng cường Flow-GRPO được sử dụng để điều chỉnh mô hình video dựa trên lỗi tái tạo, sai lệch quỹ đạo và tính hợp lý ngữ nghĩa.
Phương pháp này sử dụng mô hình mã nguồn mở Wan 2.1, với các phiên bản World-R1-Small và World-R1-Large cho thấy sự cải thiện đáng kể trong các chỉ số nhất quán 3D. Cụ thể, mô hình Large cải thiện PSNR lên 7,91 dB, trong khi phiên bản Small tăng 10,23 dB. Trong các bài kiểm tra mù, World-R1 đạt tỷ lệ thắng 92% về tính nhất quán hình học. Dự án được mở mã nguồn trên GitHub theo giấy phép CC BY-NC-SA 4.0.
Microsoft và Đại học Zhejiang ra mắt World-R1 để nâng cao độ nhất quán video 3D
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
