Google hat eine neue Technik namens Multi-Token Prediction (MTP) vorgestellt, die die Geschwindigkeit der KI-Inferenz um das bis zu Dreifache beschleunigt, ohne dass neue Hardware erforderlich ist. Dieser Fortschritt, der Teil der Gemma 4 Modellfamilie von Google ist, nutzt spekulatives Decoding, um die Verarbeitungseffizienz zu steigern. Durch die Integration eines kleineren, schnellen "Prädiktor"-Modells mit dem Haupt-KI-Modell ermöglicht MTP die gleichzeitige Vorhersage mehrerer Tokens, wodurch die für die Sequenzgenerierung benötigte Zeit reduziert wird. Der Ansatz bewahrt die Qualität großer Modelle, wie etwa des Gemma 4 mit 31 Milliarden Parametern, indem Vorhersagen in einem einzigen Vorwärtsdurchlauf validiert werden. Benchmarks von Google zeigen, dass die Aktivierung von MTP auf einem Gemma 4 26B Chip mit einer Nvidia RTX Pro 6000 GPU die Token-Verarbeitungsgeschwindigkeit nahezu verdoppelt, während Apple Silicon Chips eine 2,2-fache Beschleunigung erfahren. Diese Entwicklung verspricht eine verbesserte Reaktionsfähigkeit in Anwendungen mit niedriger Latenz, wie Echtzeit-Chat und Sprachschnittstellen, unter Verwendung vorhandener Consumer-Hardware.