Predicción Multi-Token de Google triplica velocidad IA

Google ha presentado una nueva técnica llamada Predicción Multi-Token (MTP) que acelera significativamente las velocidades de inferencia de IA hasta tres veces sin necesidad de nuevo hardware. Este avance, parte de la familia de modelos Gemma 4 de Google, utiliza la decodificación especulativa para mejorar la eficiencia del procesamiento. Al integrar un modelo "predictor" más pequeño y rápido con el modelo principal de IA, MTP permite predecir múltiples tokens simultáneamente, reduciendo el tiempo necesario para generar secuencias. El enfoque mantiene la calidad de modelos grandes, como el Gemma 4 de 31 mil millones de parámetros, validando las predicciones en una sola pasada hacia adelante. Los benchmarks de Google muestran que habilitar MTP en un chip Gemma 4 26B con una GPU Nvidia RTX Pro 6000 casi duplica la velocidad de procesamiento de tokens, mientras que los chips Apple Silicon experimentan una aceleración de 2.2 veces. Este desarrollo promete mejorar la capacidad de respuesta en aplicaciones que requieren baja latencia, como chat en tiempo real e interfaces de voz, utilizando hardware de consumo existente.