アドビリサーチは、オーストラリア国立大学およびニューヨーク大学と協力し、第2世代の表現オートエンコーダーであるRAEv2をオープンソース化しました。この新しいモデルは謝賛寧(シェイ・サイニング)氏が主導し、再構成品質の低さや収束の遅さといった主要な課題を解決することで、前モデルを大幅に改善しています。RAEv2は、従来の変分オートエンコーダーに代わる拡散モデルベースのモデルであり、ImageNetでわずか80ステップのトレーニングでグローバルFID1.06を達成し、収束速度が10倍に向上しました。 RAEv2のアーキテクチャは、再構成品質と圧縮効率を向上させる多層表現アプローチを含む3つの主要な最適化を導入しています。さらに、モデルは表現整合(REPA)を統合し、空間的な詳細の捉え方を改善することで、DINOv3のような強力なエンコーダーが生成タスクで優れた性能を発揮できるようにしています。新しいアーキテクチャはまた、拡散モデルの出力を再定式化し、追加のトレーニングコストなしで「無料」の内部ガイダンスを可能にしています。RAEv2はさまざまな指標で従来モデルを上回り、テキストから画像生成や動画合成などのタスクで強力な汎化能力を示しています。