PrismML startet ternäres Bonsai-Modell mit verbesserter Effizienz

PrismML hat die Ternary Bonsai-Serie von Sprachmodellen vorgestellt, die eine 1,58-Bit-Ternärgewichtstechnik verwendet, welche die GPU-Speichernutzung auf ein Neuntel eines 16-Bit-Modells reduziert und dabei eine hohe Leistung beibehält. Die Serie, die Modelle mit 8 Milliarden, 4 Milliarden und 1,7 Milliarden Parametern umfasst, ist nun als Open Source auf Hugging Face verfügbar und unterstützt Apple-Geräte nativ. Das 1,58-Bit-Modell beschränkt die Gewichte des neuronalen Netzwerks auf drei Werte: {-1, 0, +1}, was die Fähigkeit zum logischen Denken durch das Eliminieren redundanter Verbindungen verbessert. Das Ternary Bonsai 8B-Modell, mit einer Gewichtungsdateigröße von nur 1,75 GB, erreicht einen durchschnittlichen Benchmark-Wert von 75,5 und übertrifft damit seinen 1-Bit-Vorgänger sowie ähnliche dichte Modelle in der Intelligenzdichte. Es bietet zudem eine verbesserte Energieeffizienz und Inferenzgeschwindigkeit und erreicht 27 Tokens pro Sekunde auf dem iPhone 17 Pro Max bei einer 3- bis 4-fach besseren Energieeffizienz. Diese Modelle werden unter der Apache-2.0-Lizenz vertrieben und bieten Entwicklern leistungsstarke KI-Lösungen für Edge-Geräte.