Cerebras의 Kimi K2.6 모델, 장문 작업에서 29배 속도 향상 달성

Cerebras는 기업 테스트에서 1조 개 매개변수를 가진 대형 모델인 Kimi K2.6 모델을 공개하며, 장문 처리 작업에서 상당한 속도 향상을 보여주었습니다. 12인치 실리콘 웨이퍼에 칩을 통합함으로써 모델은 인터커넥트 지연 시간을 제거하여 초당 981 토큰의 생성 속도를 달성했으며, 이는 주류 GPU 클라우드 서비스보다 6.7배 빠른 속도입니다. 10,000개의 입력 토큰과 500개의 출력 토큰을 포함한 테스트에서 Kimi K2.6은 응답 시간을 163.7초에서 단 5.6초로 줄여 29배의 개선을 기록했습니다. 이 모델의 아키텍처는 웨이퍼의 온칩 네트워크에서 층 간 통신을 가능하게 하여 NVIDIA의 NVLink보다 200배 이상의 대역폭을 제공합니다. 이는 분산 컴퓨팅 최적화 및 효율적인 데이터 처리와 결합되어 최소한의 정밀도 손실로 실시간 성능을 가능하게 합니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.

함께 보면 좋은 콘텐츠