Google DeepMindは、テキストと画像の入力に対応し、小型モデルでは音声も扱えるGemma 4ファミリーのマルチモーダルモデルをオープンソース化しました。これらのモデルはテキスト出力を生成し、事前学習済みと指示調整済みの両バリアントで提供されています。最大256Kトークンのコンテキストウィンドウを備え、140以上の言語をサポートし、密なアーキテクチャとエキスパート混合(MoE)の2つのアーキテクチャで、E2B、E4B、26B A4B、31Bの4つのサイズで展開されています。 Gemma 4モデルは高性能な推論、拡張されたマルチモーダル処理、デバイス上の最適化を誇ります。統一されたキー・バリューペアとスケールされたRoPE(p-RoPE)をグローバルレイヤーにわたって用いるハイブリッドアテンション機構を採用しています。特に、26B A4B MoEモデルは推論時にわずか38億パラメータのみを活性化し、4Bパラメータモデルと同等の速度を実現しており、効率と性能を向上させています。