Google DeepMind lance les modèles multimodaux Gemma 4

Google DeepMind a rendu open source la famille de modèles multimodaux Gemma 4, qui prennent en charge les entrées textuelles et images, avec des modèles plus petits pouvant également gérer l'audio. Ces modèles génèrent des sorties textuelles et sont disponibles en variantes pré-entraînées et ajustées par instruction. Ils disposent d'une fenêtre de contexte allant jusqu'à 256 000 tokens et supportent plus de 140 langues, proposés en deux architectures — dense et mixture-of-experts (MoE) — sur quatre tailles : E2B, E4B, 26B A4B et 31B. Les modèles Gemma 4 offrent une inférence haute performance, un traitement multimodal étendu et une optimisation sur appareil. Ils utilisent un mécanisme d'attention hybride avec des paires clé-valeur unifiées et un RoPE mis à l'échelle (p-RoPE) à travers les couches globales. Notamment, le modèle 26B A4B MoE n'active que 3,8 milliards de paramètres lors de l'inférence, atteignant des vitesses comparables à un modèle de 4 milliards de paramètres, améliorant ainsi l'efficacité et la performance.

Vous pourriez aussi aimer