A Adobe Research, em colaboração com a Australian National University e a New York University, tornou de código aberto o Representation Autoencoder de segunda geração, RAEv2. Este novo modelo, liderado por Xie Saining, melhora significativamente seu antecessor ao abordar limitações chave, como baixa qualidade de reconstrução e convergência lenta. O RAEv2, uma alternativa baseada em modelo de difusão aos tradicionais Autoencoders Variacionais, alcança um FID global de 1,06 no ImageNet em apenas 80 passos de treinamento, marcando um aumento de dez vezes na velocidade de convergência.
A arquitetura do RAEv2 introduz três otimizações principais, incluindo uma abordagem de representação em múltiplas camadas que aprimora a qualidade da reconstrução e a eficiência da compressão. Além disso, o modelo integra o Alinhamento de Representação (REPA) para melhorar a captura de detalhes espaciais, permitindo que codificadores mais robustos como o DINOv3 se destaquem em tarefas generativas. A nova arquitetura também reformula a saída do modelo de difusão, possibilitando uma orientação interna "gratuita" sem custos adicionais de treinamento. O RAEv2 supera modelos anteriores em várias métricas e demonstra forte generalização em tarefas como geração de texto para imagem e síntese de vídeo.
Adobe e Parceiros Lançam Código Aberto do RAEv2, Alcançando Convergência 10x Mais Rápida
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
