Cerebras hat sein Kimi K2.6 Modell, ein großes Modell mit einer Billion Parametern, im Unternehmenseinsatz vorgestellt und dabei eine signifikante Geschwindigkeitssteigerung bei der Verarbeitung langer Texte demonstriert. Durch die Integration von Chips auf einem 12-Zoll-Siliziumwafer eliminiert das Modell die Latenz bei der Verbindung und erreicht eine Generierungsgeschwindigkeit von 981 Tokens pro Sekunde – 6,7-mal schneller als gängige GPU-Cloud-Dienste.
In Tests mit 10.000 Eingabe-Tokens und 500 Ausgabe-Tokens verringerte der Kimi K2.6 die Antwortzeit von 163,7 Sekunden auf nur 5,6 Sekunden, was eine 29-fache Verbesserung darstellt. Die Architektur des Modells ermöglicht eine Kommunikation zwischen den Schichten über das On-Chip-Netzwerk des Wafers und bietet eine Bandbreite, die über 200-mal größer ist als die von NVIDIAs NVLink. Dies, kombiniert mit Optimierungen im verteilten Rechnen und effizienter Datenverarbeitung, ermöglicht eine Echtzeit-Leistung bei minimalem Präzisionsverlust.
Cerebras' Kimi K2.6 Modell erzielt 29-fache Geschwindigkeitssteigerung bei Langtextaufgaben
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
