ZyphraのAMD拠点拡散モデル、速度7.7倍向上

Zyphraは、AMDハードウェアエコシステムにおける重要な進歩を示す拡散言語モデル「ZAYA1-8B-Diffusion-Preview」を発表しました。このモデルは、専門家混合（MoE）拡散モデルであり、自己回帰型の大規模言語モデルに由来し、AMDフレームワーク内で初の試みであると主張しています。類似のモデルは他のチームからも発表されていますが、ZAYA1は拡散アーキテクチャを活用してエンジニアリング効率を向上させている点で際立っています。 ZAYA1モデルは、逐次的なトークン生成と物理的な速度制限により制約される従来の自己回帰モデルの限界に対処しています。TiDARアプローチを採用することで、ZAYA1は単一のフォワードパスで16のトークン候補の並列デノイズを可能にし、メモリ帯域幅の制約を計算ボトルネックに変換しています。実際のテストでは、ZAYA1の独自のCCAアテンション機構と標準のロスレスサンプラーを組み合わせることで、トークン受信速度が4.6倍に向上することが示されています。この速度向上は混合ロジットサンプラーを使用すると7.7倍に達し、レイテンシが重要な大規模推論タスクのコストを大幅に削減します。