Zyphra'nın AMD Tabanlı Diffüzyon Modeli Hızı 7,7 Kat Artırdı

Zyphra, AMD donanım ekosisteminde önemli bir ilerlemeyi temsil eden ZAYA1-8B-Diffusion-Preview adlı bir difüzyon dil modeli başlattı. Bu model, uzman karışımı (MoE) difüzyon modeli olup, otoregresif büyük bir dil modelinden türetilmiştir ve AMD çerçevesinde türünün ilk örneği olduğunu iddia etmektedir. Benzer modeller diğer ekipler tarafından tanıtılmış olsa da, ZAYA1 mühendislik verimliliğini artırmak için difüzyon mimarilerini kullanmasıyla kendini ayırmaktadır. ZAYA1 modeli, ardışık token üretimi ve fiziksel hız sınırları nedeniyle kısıtlanan geleneksel otoregresif modellerin sınırlamalarını ele almaktadır. TiDAR yaklaşımını benimseyerek, ZAYA1 tek bir ileri geçişte 16 token adayının paralel olarak gürültüsünü azaltmayı mümkün kılarak, bellek bant genişliği kısıtlamalarını hesaplama darboğazlarına dönüştürür. Gerçek dünya testleri, ZAYA1'in özel CCA dikkat mekanizmasının, standart kayıpsız bir örnekleyici ile birleştiğinde, token alımında 4,6 kat hız artışı sağladığını göstermektedir. Bu hız artışı, karışık logit örnekleyici ile 7,7 kata çıkarak, gecikme yoğun büyük ölçekli çıkarım görevlerinde maliyetleri önemli ölçüde azaltmaktadır.