Googleのマルチトークン予測でAI速度3倍に

Googleは、新しい技術「マルチトークン予測（MTP）」を発表しました。これは、新しいハードウェアを必要とせずにAI推論速度を最大3倍に大幅に加速するものです。この進歩は、GoogleのGemma 4モデルファミリーの一部であり、推測的デコーディングを利用して処理効率を向上させています。小型で高速な「予測器」モデルをメインのAIモデルと統合することで、MTPは複数のトークンを同時に予測でき、シーケンス生成にかかる時間を短縮します。この手法は、310億パラメータを持つGemma 4のような大規模モデルの品質を、単一のフォワードパスで予測を検証することで維持します。Googleのベンチマークによると、Nvidia RTX Pro 6000 GPUを搭載したGemma 4 26BチップでMTPを有効にすると、トークン処理速度がほぼ2倍になり、Apple Siliconチップでは2.2倍の高速化が見られます。この開発により、既存の消費者向けハードウェアを使用しながら、リアルタイムチャットや音声インターフェースなどの低遅延を必要とするアプリケーションの応答性が向上することが期待されています。