Cerebras a dévoilé son modèle Kimi K2.6, un modèle de grande taille à un trillion de paramètres, lors de tests en entreprise, mettant en avant une augmentation significative de la vitesse dans les tâches de traitement de textes longs. En intégrant des puces sur une plaquette de silicium de 12 pouces, le modèle élimine la latence des interconnexions, atteignant une vitesse de génération de 981 tokens par seconde — soit 6,7 fois plus rapide que les services cloud GPU grand public. Lors de tests impliquant 10 000 tokens d'entrée et 500 tokens de sortie, le Kimi K2.6 a réduit le temps de réponse de 163,7 secondes à seulement 5,6 secondes, marquant une amélioration de 29 fois. L'architecture du modèle permet une communication inter-couches sur le réseau intégré à la plaquette, offrant une bande passante plus de 200 fois supérieure à celle du NVLink de NVIDIA. Cela, combiné aux optimisations du calcul distribué et à une gestion efficace des données, permet des performances en temps réel avec une perte de précision minimale.