Google DeepMind ha hecho de código abierto la familia de modelos multimodales Gemma 4, que soportan entradas de texto e imagen, con modelos más pequeños que también admiten audio. Estos modelos generan salidas de texto y están disponibles en variantes tanto preentrenadas como ajustadas por instrucciones. Cuentan con una ventana de contexto de hasta 256K tokens y soportan más de 140 idiomas, ofrecidos en dos arquitecturas: densa y mezcla de expertos (MoE), en cuatro tamaños: E2B, E4B, 26B A4B y 31B. Los modelos Gemma 4 presumen de una inferencia de alto rendimiento, procesamiento multimodal extendido y optimización en el dispositivo. Emplean un mecanismo de atención híbrido con pares clave-valor unificados y RoPE escalado (p-RoPE) a través de capas globales. Notablemente, el modelo 26B A4B MoE activa solo 3.8 mil millones de parámetros durante la inferencia, logrando velocidades comparables a un modelo de 4 mil millones de parámetros, mejorando la eficiencia y el rendimiento.