Cerebras ha presentado su modelo Kimi K2.6, un modelo grande con un billón de parámetros, en pruebas empresariales, mostrando un aumento significativo de velocidad en tareas de procesamiento de texto largo. Al integrar chips a lo largo de una oblea de silicio de 12 pulgadas, el modelo elimina la latencia de interconexión, alcanzando una velocidad de generación de 981 tokens por segundo, 6.7 veces más rápido que los servicios en la nube con GPU convencionales. En pruebas que involucraron 10,000 tokens de entrada y 500 tokens de salida, el Kimi K2.6 redujo el tiempo de respuesta de 163.7 segundos a solo 5.6 segundos, marcando una mejora de 29 veces. La arquitectura del modelo permite la comunicación entre capas en la red en chip de la oblea, proporcionando un ancho de banda más de 200 veces mayor que el NVLink de NVIDIA. Esto, combinado con optimizaciones en computación distribuida y manejo eficiente de datos, permite un rendimiento en tiempo real con una pérdida mínima de precisión.