Sakana AI & NVIDIA steigern GPU-Effizienz mit TwELL

Sakana AI hat in Zusammenarbeit mit NVIDIA TwELL vorgestellt, ein Open-Source-Datenformat für spärliche Daten und Beschleunigungskerne, die die GPU-Effizienz durch das Überspringen ineffektiver Berechnungen verbessern. Diese Innovation erhöht die Inferenzgeschwindigkeit des H100 um bis zu 30 % und die Trainingsgeschwindigkeit um bis zu 24 %, ohne die Modellgenauigkeit zu beeinträchtigen. TwELL behebt die Ineffizienz in den Feedforward-Netzwerkschichten großer Modelle, bei denen über 80 % der Neuronen während der Textgenerierung inaktiv bleiben. TwELL optimiert GPU-Operationen, indem es Daten in kleine Blöcke unterteilt, die von GPUs effizient verarbeitet werden können, und eliminiert kostspielige globale Speicheroperationen. Tests an einem Modell mit 1,5 Milliarden Parametern zeigten, dass nur 2 % der Neuronen Berechnungen erforderten, wobei die Leistung über mehrere Aufgaben hinweg erhalten blieb. Mit zunehmender Modellgröße könnte diese Optimierung noch größere Leistungssteigerungen bringen, da größere Modelle einen signifikanten Rückgang des Anteils aktiver Neuronen zeigen.