Adobe Research, en collaboration avec l'Université nationale australienne et l'Université de New York, a rendu open source la deuxième génération de l'autoencodeur de représentation, RAEv2. Ce nouveau modèle, dirigé par Xie Saining, améliore significativement son prédécesseur en traitant des limitations clés telles que la mauvaise qualité de reconstruction et la lenteur de convergence. RAEv2, une alternative basée sur un modèle de diffusion aux autoencodeurs variationnels traditionnels, atteint un FID global de 1,06 sur ImageNet en seulement 80 étapes d'entraînement, marquant une augmentation de dix fois la vitesse de convergence. L'architecture RAEv2 introduit trois optimisations principales, dont une approche de représentation multi-couches qui améliore la qualité de reconstruction et l'efficacité de compression. De plus, le modèle intègre l'alignement de représentation (REPA) pour améliorer la capture des détails spatiaux, permettant à des encodeurs plus puissants comme DINOv3 d'exceller dans les tâches génératives. La nouvelle architecture reformule également la sortie du modèle de diffusion, permettant une guidance interne "gratuite" sans coûts d'entraînement supplémentaires. RAEv2 surpasse les modèles précédents selon divers critères et démontre une forte généralisation dans des tâches telles que la génération d'images à partir de texte et la synthèse vidéo.