Adobe Research в сотрудничестве с Австралийским национальным университетом и Нью-Йоркским университетом опубликовали в открытом доступе второе поколение автокодировщика представлений, RAEv2. Эта новая модель, возглавляемая Ся Сайнингом, значительно превосходит своего предшественника, устраняя ключевые ограничения, такие как низкое качество реконструкции и медленная сходимость. RAEv2, основанная на диффузионной модели альтернатива традиционным вариационным автокодировщикам, достигает глобального FID 1,06 на ImageNet всего за 80 шагов обучения, что отмечает десятикратное увеличение скорости сходимости. Архитектура RAEv2 вводит три основных оптимизации, включая многослойный подход к представлению, который улучшает качество реконструкции и эффективность сжатия. Кроме того, модель интегрирует выравнивание представлений (REPA) для улучшения захвата пространственных деталей, что позволяет более мощным энкодерам, таким как DINOv3, превосходно справляться с генеративными задачами. Новая архитектура также реформулирует выход диффузионной модели, позволяя "бесплатное" внутреннее руководство без дополнительных затрат на обучение. RAEv2 превосходит предыдущие модели по различным метрикам и демонстрирует высокую обобщаемость в таких задачах, как генерация изображений по тексту и синтез видео.