Adobe libera RAEv2 con convergencia 10x más rápida

Adobe Research, en colaboración con la Universidad Nacional de Australia y la Universidad de Nueva York, ha liberado el código abierto del autoencoder de representación de segunda generación, RAEv2. Este nuevo modelo, liderado por Xie Saining, mejora significativamente a su predecesor al abordar limitaciones clave como la baja calidad de reconstrucción y la lenta convergencia. RAEv2, una alternativa basada en modelos de difusión a los autoencoders variacionales tradicionales, alcanza un FID global de 1.06 en ImageNet en solo 80 pasos de entrenamiento, marcando un aumento de diez veces en la velocidad de convergencia. La arquitectura de RAEv2 introduce tres optimizaciones principales, incluyendo un enfoque de representación en múltiples capas que mejora la calidad de reconstrucción y la eficiencia de compresión. Además, el modelo integra Alineación de Representación (REPA) para mejorar la captura de detalles espaciales, permitiendo que codificadores más potentes como DINOv3 sobresalgan en tareas generativas. La nueva arquitectura también reformula la salida del modelo de difusión, habilitando una guía interna "gratuita" sin costos adicionales de entrenamiento. RAEv2 supera a modelos anteriores en varias métricas y demuestra una fuerte generalización en tareas como la generación de imágenes a partir de texto y la síntesis de video.

También te podría gustar