Adobe libera RAEv2 com convergência 10x mais rápida

A Adobe Research, em colaboração com a Australian National University e a New York University, tornou de código aberto o Representation Autoencoder de segunda geração, RAEv2. Este novo modelo, liderado por Xie Saining, melhora significativamente seu antecessor ao abordar limitações chave, como baixa qualidade de reconstrução e convergência lenta. O RAEv2, uma alternativa baseada em modelo de difusão aos tradicionais Autoencoders Variacionais, alcança um FID global de 1,06 no ImageNet em apenas 80 passos de treinamento, marcando um aumento de dez vezes na velocidade de convergência. A arquitetura do RAEv2 introduz três otimizações principais, incluindo uma abordagem de representação em múltiplas camadas que aprimora a qualidade da reconstrução e a eficiência da compressão. Além disso, o modelo integra o Alinhamento de Representação (REPA) para melhorar a captura de detalhes espaciais, permitindo que codificadores mais robustos como o DINOv3 se destaquem em tarefas generativas. A nova arquitetura também reformula a saída do modelo de difusão, possibilitando uma orientação interna "gratuita" sem custos adicionais de treinamento. O RAEv2 supera modelos anteriores em várias métricas e demonstra forte generalização em tarefas como geração de texto para imagem e síntese de vídeo.

Você também pode gostar