Zyphras AMD-Diffusionsmodell steigert Geschwindigkeit um 7,7x

Zyphra hat das ZAYA1-8B-Diffusion-Preview vorgestellt, ein Diffusions-Sprachmodell, das einen bedeutenden Fortschritt im AMD-Hardware-Ökosystem darstellt. Dieses Modell, ein Mixture-of-Experts (MoE) Diffusionsmodell, basiert auf einem autoregressiven großen Sprachmodell und beansprucht, das erste seiner Art im AMD-Rahmenwerk zu sein. Während ähnliche Modelle von anderen Teams eingeführt wurden, zeichnet sich ZAYA1 dadurch aus, dass es Diffusionsarchitekturen nutzt, um die Effizienz in der Entwicklung zu steigern. Das ZAYA1-Modell adressiert die Einschränkungen traditioneller autoregressiver Modelle, die durch die sequentielle Token-Generierung und physikalische Geschwindigkeitsgrenzen behindert werden. Durch die Anwendung des TiDAR-Ansatzes ermöglicht ZAYA1 die parallele Rauschunterdrückung von 16 Token-Kandidaten in einem einzigen Vorwärtsdurchlauf, wodurch Speicherbandbreitenbeschränkungen effektiv in Rechenengpässe umgewandelt werden. Tests in der Praxis zeigen, dass der proprietäre CCA-Attentionsmechanismus von ZAYA1, kombiniert mit einem standardmäßigen verlustfreien Sampler, eine 4,6-fache Beschleunigung beim Empfang von Tokens erreicht. Diese Beschleunigung steigt mit einem gemischten Logit-Sampler auf das 7,7-fache an, was die Kosten für latenzintensive groß angelegte Inferenzaufgaben erheblich reduziert.