Prédiction Multi-Token de Google : IA 3x plus rapide

Google a dévoilé une nouvelle technique appelée Multi-Token Prediction (MTP) qui accélère considérablement la vitesse d'inférence de l'IA jusqu'à trois fois sans nécessiter de nouveau matériel. Cette avancée, faisant partie de la famille de modèles Gemma 4 de Google, utilise le décodage spéculatif pour améliorer l'efficacité du traitement. En intégrant un modèle "prédicteur" plus petit et rapide avec le modèle principal d'IA, MTP permet de prédire plusieurs tokens simultanément, réduisant ainsi le temps nécessaire à la génération des séquences. Cette approche maintient la qualité des grands modèles, tels que le Gemma 4 de 31 milliards de paramètres, en validant les prédictions en une seule passe avant. Les benchmarks de Google montrent que l'activation de MTP sur une puce Gemma 4 26B avec un GPU Nvidia RTX Pro 6000 double presque la vitesse de traitement des tokens, tandis que les puces Apple Silicon bénéficient d'une accélération de 2,2 fois. Ce développement promet d'améliorer la réactivité des applications nécessitant une faible latence, telles que les interfaces de chat et vocales en temps réel, en utilisant le matériel grand public existant.