Google a dévoilé une nouvelle technique appelée Multi-Token Prediction (MTP) qui accélère considérablement la vitesse d'inférence de l'IA jusqu'à trois fois sans nécessiter de nouveau matériel. Cette avancée, faisant partie de la famille de modèles Gemma 4 de Google, utilise le décodage spéculatif pour améliorer l'efficacité du traitement. En intégrant un modèle "prédicteur" plus petit et rapide avec le modèle principal d'IA, MTP permet de prédire plusieurs tokens simultanément, réduisant ainsi le temps nécessaire à la génération des séquences.
Cette approche maintient la qualité des grands modèles, tels que le Gemma 4 de 31 milliards de paramètres, en validant les prédictions en une seule passe avant. Les benchmarks de Google montrent que l'activation de MTP sur une puce Gemma 4 26B avec un GPU Nvidia RTX Pro 6000 double presque la vitesse de traitement des tokens, tandis que les puces Apple Silicon bénéficient d'une accélération de 2,2 fois. Ce développement promet d'améliorer la réactivité des applications nécessitant une faible latence, telles que les interfaces de chat et vocales en temps réel, en utilisant le matériel grand public existant.
Google présente une inférence IA trois fois plus rapide grâce à la prédiction multi-token
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
