A Cerebras revelou seu modelo Kimi K2.6, um grande modelo de um trilhão de parâmetros, em testes empresariais, demonstrando um aumento significativo de velocidade em tarefas de processamento de textos longos. Ao integrar chips em uma pastilha de silício de 12 polegadas, o modelo elimina a latência de interconexão, alcançando uma velocidade de geração de 981 tokens por segundo — 6,7 vezes mais rápido que os serviços de nuvem GPU convencionais. Em testes envolvendo 10.000 tokens de entrada e 500 tokens de saída, o Kimi K2.6 reduziu o tempo de resposta de 163,7 segundos para apenas 5,6 segundos, marcando uma melhoria de 29 vezes. A arquitetura do modelo permite comunicação entre camadas na rede on-chip da pastilha, oferecendo uma largura de banda mais de 200 vezes maior que o NVLink da NVIDIA. Isso, combinado com otimizações de computação distribuída e manuseio eficiente de dados, possibilita desempenho em tempo real com perda mínima de precisão.