Adobe veröffentlicht RAEv2 mit 10x schnellerer Konvergenz

Adobe Research hat in Zusammenarbeit mit der Australian National University und der New York University den Representation Autoencoder der zweiten Generation, RAEv2, als Open Source veröffentlicht. Dieses neue Modell, geleitet von Xie Saining, verbessert seinen Vorgänger erheblich, indem es zentrale Einschränkungen wie schlechte Rekonstruktionsqualität und langsame Konvergenz adressiert. RAEv2, ein auf Diffusionsmodellen basierendes Alternativmodell zu traditionellen Variational Autoencodern, erreicht einen globalen FID von 1,06 auf ImageNet in nur 80 Trainingsschritten, was eine zehnfache Steigerung der Konvergenzgeschwindigkeit bedeutet. Die Architektur von RAEv2 führt drei Kernoptimierungen ein, darunter einen mehrschichtigen Repräsentationsansatz, der die Rekonstruktionsqualität und Kompressionseffizienz verbessert. Zusätzlich integriert das Modell Representation Alignment (REPA), um die Erfassung räumlicher Details zu verbessern, was stärkeren Encodern wie DINOv3 ermöglicht, in generativen Aufgaben zu glänzen. Die neue Architektur reformuliert außerdem die Ausgabe des Diffusionsmodells, wodurch eine "kostenlose" interne Steuerung ohne zusätzliche Trainingskosten ermöglicht wird. RAEv2 übertrifft frühere Modelle in verschiedenen Metriken und zeigt eine starke Generalisierung bei Aufgaben wie Text-zu-Bild-Generierung und Videosynthese.

Das könnte Ihnen auch gefallen