Cerebras Kimi K2.6 steigert Langtext-Geschwindigkeit um 29x

Cerebras hat sein Kimi K2.6 Modell, ein großes Modell mit einer Billion Parametern, im Unternehmenseinsatz vorgestellt und dabei eine signifikante Geschwindigkeitssteigerung bei der Verarbeitung langer Texte demonstriert. Durch die Integration von Chips auf einem 12-Zoll-Siliziumwafer eliminiert das Modell die Latenz bei der Verbindung und erreicht eine Generierungsgeschwindigkeit von 981 Tokens pro Sekunde – 6,7-mal schneller als gängige GPU-Cloud-Dienste. In Tests mit 10.000 Eingabe-Tokens und 500 Ausgabe-Tokens verringerte der Kimi K2.6 die Antwortzeit von 163,7 Sekunden auf nur 5,6 Sekunden, was eine 29-fache Verbesserung darstellt. Die Architektur des Modells ermöglicht eine Kommunikation zwischen den Schichten über das On-Chip-Netzwerk des Wafers und bietet eine Bandbreite, die über 200-mal größer ist als die von NVIDIAs NVLink. Dies, kombiniert mit Optimierungen im verteilten Rechnen und effizienter Datenverarbeitung, ermöglicht eine Echtzeit-Leistung bei minimalem Präzisionsverlust.

Das könnte Ihnen auch gefallen