Modelo Qwen 3.6 27B alcança 40 tokens/s na RTX 3090

O modelo Qwen 3.6 27B Dense demonstrou uma velocidade de processamento de 40 tokens por segundo em uma GPU RTX 3090 de 24GB, segundo testes preliminares do usuário @sudoingX. Os testes, realizados sem técnicas de quantização ou kernels fundidos, utilizaram quantização direta Q4_K_M via llama.cpp e passaram com sucesso em todos os 10 testes realizados. Além disso, um benchmark de enxame de partículas foi desenvolvido para avaliar o desempenho do modelo.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.