Le modèle Qwen 3.6 27B atteint 40 tokens/s sur RTX 3090

Le modèle Qwen 3.6 27B Dense a démontré une vitesse de traitement de 40 tokens par seconde sur un GPU RTX 3090 24GB, selon des tests préliminaires réalisés par l'utilisateur @sudoingX. Les tests, effectués sans techniques de quantification ni noyaux fusionnés, ont utilisé une quantification directe Q4_K_M via llama.cpp et ont réussi avec succès les 10 tests sur 10. De plus, un benchmark de type essaim de particules a été développé pour évaluer les performances du modèle.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.