Sakana AI, NVIDIA ile iş birliği içinde, etkisiz hesaplamaları atlayarak GPU verimliliğini artıran açık kaynaklı seyrek veri formatı ve hızlandırma çekirdekleri olan TwELL'i piyasaya sürdü. Bu yenilik, model doğruluğundan ödün vermeden H100 çıkarım hızını %30'a kadar ve eğitim hızını %24'e kadar artırıyor. TwELL, büyük modellerin ileri beslemeli ağ katmanlarındaki verimsizliği ele alıyor; burada metin üretimi sırasında nöronların %80'inden fazlası aktif olmuyor. TwELL, verileri küçük bloklara bölerek GPU işlemlerini optimize ediyor, böylece GPU'ların bunları verimli bir şekilde işlemesini sağlıyor ve maliyetli küresel bellek işlemlerini ortadan kaldırıyor. 1,5 milyar parametreli bir model üzerinde yapılan testler, yalnızca %2 nöronun hesaplama gerektirdiğini gösterdi ve çoklu görevlerde performansı korudu. Modeller büyüdükçe, bu optimizasyon daha da büyük performans artışları sağlayabilir; daha büyük modellerde aktif nöron oranlarında önemli bir azalma gözlemleniyor.