Adobe Mở Mã RAEv2, Hội Tụ Nhanh Gấp 10 Lần

Adobe Research, phối hợp với Đại học Quốc gia Úc và Đại học New York, đã công khai mã nguồn của Autoencoder Đại diện thế hệ thứ hai, RAEv2. Mô hình mới này, do Xie Saining dẫn đầu, cải thiện đáng kể so với phiên bản trước bằng cách giải quyết các hạn chế chính như chất lượng tái tạo kém và hội tụ chậm. RAEv2, một mô hình dựa trên khuếch tán thay thế cho Autoencoder Biến phân truyền thống, đạt được điểm FID toàn cầu là 1,06 trên ImageNet chỉ trong 80 bước huấn luyện, đánh dấu tốc độ hội tụ tăng gấp mười lần. Kiến trúc RAEv2 giới thiệu ba tối ưu hóa cốt lõi, bao gồm phương pháp đại diện đa lớp giúp nâng cao chất lượng tái tạo và hiệu quả nén. Ngoài ra, mô hình tích hợp Căn chỉnh Đại diện (REPA) để cải thiện việc nắm bắt chi tiết không gian, cho phép các bộ mã hóa mạnh hơn như DINOv3 phát huy hiệu quả trong các nhiệm vụ tạo sinh. Kiến trúc mới cũng tái cấu trúc đầu ra của mô hình khuếch tán, cho phép hướng dẫn nội bộ "miễn phí" mà không tốn thêm chi phí huấn luyện. RAEv2 vượt trội hơn các mô hình trước đây về nhiều chỉ số và thể hiện khả năng tổng quát hóa mạnh mẽ trong các nhiệm vụ như tạo hình ảnh từ văn bản và tổng hợp video.

Bạn cũng có thể thích