Google DeepMindは、テキストと画像の入力に対応し、小型モデルでは音声も扱えるGemma 4ファミリーのマルチモーダルモデルをオープンソース化しました。これらのモデルはテキスト出力を生成し、事前学習済みと指示調整済みの両バリアントで提供されています。最大256Kトークンのコンテキストウィンドウを備え、140以上の言語をサポートし、密なアーキテクチャとエキスパート混合(MoE)の2つのアーキテクチャで、E2B、E4B、26B A4B、31Bの4つのサイズで展開されています。
Gemma 4モデルは高性能な推論、拡張されたマルチモーダル処理、デバイス上の最適化を誇ります。統一されたキー・バリューペアとスケールされたRoPE(p-RoPE)をグローバルレイヤーにわたって用いるハイブリッドアテンション機構を採用しています。特に、26B A4B MoEモデルは推論時にわずか38億パラメータのみを活性化し、4Bパラメータモデルと同等の速度を実現しており、効率と性能を向上させています。
Google DeepMind、Gemma 4マルチモーダルモデルファミリーをオープンソース化
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
