Modelo Kimi K2.6 da Cerebras alcança aumento de velocidade de 29x em tarefas de texto longo

A Cerebras revelou seu modelo Kimi K2.6, um grande modelo de um trilhão de parâmetros, em testes empresariais, demonstrando um aumento significativo de velocidade em tarefas de processamento de textos longos. Ao integrar chips em uma pastilha de silício de 12 polegadas, o modelo elimina a latência de interconexão, alcançando uma velocidade de geração de 981 tokens por segundo — 6,7 vezes mais rápido que os serviços de nuvem GPU convencionais. Em testes envolvendo 10.000 tokens de entrada e 500 tokens de saída, o Kimi K2.6 reduziu o tempo de resposta de 163,7 segundos para apenas 5,6 segundos, marcando uma melhoria de 29 vezes. A arquitetura do modelo permite comunicação entre camadas na rede on-chip da pastilha, oferecendo uma largura de banda mais de 200 vezes maior que o NVLink da NVIDIA. Isso, combinado com otimizações de computação distribuída e manuseio eficiente de dados, possibilita desempenho em tempo real com perda mínima de precisão.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

Você também pode gostar