Cerebras는 기업 테스트에서 1조 개 매개변수를 가진 대형 모델인 Kimi K2.6 모델을 공개하며, 장문 처리 작업에서 상당한 속도 향상을 보여주었습니다. 12인치 실리콘 웨이퍼에 칩을 통합함으로써 모델은 인터커넥트 지연 시간을 제거하여 초당 981 토큰의 생성 속도를 달성했으며, 이는 주류 GPU 클라우드 서비스보다 6.7배 빠른 속도입니다. 10,000개의 입력 토큰과 500개의 출력 토큰을 포함한 테스트에서 Kimi K2.6은 응답 시간을 163.7초에서 단 5.6초로 줄여 29배의 개선을 기록했습니다. 이 모델의 아키텍처는 웨이퍼의 온칩 네트워크에서 층 간 통신을 가능하게 하여 NVIDIA의 NVLink보다 200배 이상의 대역폭을 제공합니다. 이는 분산 컴퓨팅 최적화 및 효율적인 데이터 처리와 결합되어 최소한의 정밀도 손실로 실시간 성능을 가능하게 합니다.