Googleは、新しい技術「マルチトークン予測(MTP)」を発表しました。これは、新しいハードウェアを必要とせずにAI推論速度を最大3倍に大幅に加速するものです。この進歩は、GoogleのGemma 4モデルファミリーの一部であり、推測的デコーディングを利用して処理効率を向上させています。小型で高速な「予測器」モデルをメインのAIモデルと統合することで、MTPは複数のトークンを同時に予測でき、シーケンス生成にかかる時間を短縮します。
この手法は、310億パラメータを持つGemma 4のような大規模モデルの品質を、単一のフォワードパスで予測を検証することで維持します。Googleのベンチマークによると、Nvidia RTX Pro 6000 GPUを搭載したGemma 4 26BチップでMTPを有効にすると、トークン処理速度がほぼ2倍になり、Apple Siliconチップでは2.2倍の高速化が見られます。この開発により、既存の消費者向けハードウェアを使用しながら、リアルタイムチャットや音声インターフェースなどの低遅延を必要とするアプリケーションの応答性が向上することが期待されています。
Google、マルチトークン予測による3倍高速なAI推論を導入
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
