Мульти-токен прогноз Google ускоряет ИИ в 3 раза

Google представила новую технологию под названием Multi-Token Prediction (MTP), которая значительно ускоряет скорость вывода ИИ до трех раз без необходимости в новом оборудовании. Это достижение, являющееся частью семейства моделей Gemma 4 от Google, использует спекулятивное декодирование для повышения эффективности обработки. Интегрируя меньшую, быструю модель "предсказателя" с основной моделью ИИ, MTP позволяет одновременно предсказывать несколько токенов, сокращая время, необходимое для генерации последовательностей. Этот подход сохраняет качество больших моделей, таких как Gemma 4 с 31 миллиардами параметров, проверяя предсказания за один проход вперед. Бенчмарки Google показывают, что включение MTP на чипе Gemma 4 26B с графическим процессором Nvidia RTX Pro 6000 почти удваивает скорость обработки токенов, в то время как чипы Apple Silicon обеспечивают ускорение в 2,2 раза. Это развитие обещает улучшить отзывчивость в приложениях, требующих низкой задержки, таких как чат в реальном времени и голосовые интерфейсы, используя существующее потребительское оборудование.