Adobe Research, en colaboración con la Universidad Nacional de Australia y la Universidad de Nueva York, ha liberado el código abierto del autoencoder de representación de segunda generación, RAEv2. Este nuevo modelo, liderado por Xie Saining, mejora significativamente a su predecesor al abordar limitaciones clave como la baja calidad de reconstrucción y la lenta convergencia. RAEv2, una alternativa basada en modelos de difusión a los autoencoders variacionales tradicionales, alcanza un FID global de 1.06 en ImageNet en solo 80 pasos de entrenamiento, marcando un aumento de diez veces en la velocidad de convergencia.
La arquitectura de RAEv2 introduce tres optimizaciones principales, incluyendo un enfoque de representación en múltiples capas que mejora la calidad de reconstrucción y la eficiencia de compresión. Además, el modelo integra Alineación de Representación (REPA) para mejorar la captura de detalles espaciales, permitiendo que codificadores más potentes como DINOv3 sobresalgan en tareas generativas. La nueva arquitectura también reformula la salida del modelo de difusión, habilitando una guía interna "gratuita" sin costos adicionales de entrenamiento. RAEv2 supera a modelos anteriores en varias métricas y demuestra una fuerte generalización en tareas como la generación de imágenes a partir de texto y la síntesis de video.
Adobe y socios lanzan RAEv2 de código abierto, logrando una convergencia 10 veces más rápida
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
