Google DeepMind a rendu open source la famille de modèles multimodaux Gemma 4, qui prennent en charge les entrées textuelles et images, avec des modèles plus petits pouvant également gérer l'audio. Ces modèles génèrent des sorties textuelles et sont disponibles en variantes pré-entraînées et ajustées par instruction. Ils disposent d'une fenêtre de contexte allant jusqu'à 256 000 tokens et supportent plus de 140 langues, proposés en deux architectures — dense et mixture-of-experts (MoE) — sur quatre tailles : E2B, E4B, 26B A4B et 31B.
Les modèles Gemma 4 offrent une inférence haute performance, un traitement multimodal étendu et une optimisation sur appareil. Ils utilisent un mécanisme d'attention hybride avec des paires clé-valeur unifiées et un RoPE mis à l'échelle (p-RoPE) à travers les couches globales. Notamment, le modèle 26B A4B MoE n'active que 3,8 milliards de paramètres lors de l'inférence, atteignant des vitesses comparables à un modèle de 4 milliards de paramètres, améliorant ainsi l'efficacité et la performance.
Google DeepMind publie en open source la famille de modèles multimodaux Gemma 4
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
