Adobe Research, en collaboration avec l'Université nationale australienne et l'Université de New York, a rendu open source la deuxième génération de l'autoencodeur de représentation, RAEv2. Ce nouveau modèle, dirigé par Xie Saining, améliore significativement son prédécesseur en traitant des limitations clés telles que la mauvaise qualité de reconstruction et la lenteur de convergence. RAEv2, une alternative basée sur un modèle de diffusion aux autoencodeurs variationnels traditionnels, atteint un FID global de 1,06 sur ImageNet en seulement 80 étapes d'entraînement, marquant une augmentation de dix fois la vitesse de convergence.
L'architecture RAEv2 introduit trois optimisations principales, dont une approche de représentation multi-couches qui améliore la qualité de reconstruction et l'efficacité de compression. De plus, le modèle intègre l'alignement de représentation (REPA) pour améliorer la capture des détails spatiaux, permettant à des encodeurs plus puissants comme DINOv3 d'exceller dans les tâches génératives. La nouvelle architecture reformule également la sortie du modèle de diffusion, permettant une guidance interne "gratuite" sans coûts d'entraînement supplémentaires. RAEv2 surpasse les modèles précédents selon divers critères et démontre une forte généralisation dans des tâches telles que la génération d'images à partir de texte et la synthèse vidéo.
Adobe et ses partenaires publient en open source RAEv2, atteignant une convergence 10 fois plus rapide
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
