A Google DeepMind tornou de código aberto a família Gemma 4 de modelos multimodais, que suportam entradas de texto e imagem, com modelos menores também acomodando áudio. Esses modelos geram saídas de texto e estão disponíveis em variantes pré-treinadas e ajustadas por instrução. Eles apresentam uma janela de contexto de até 256 mil tokens e suportam mais de 140 idiomas, oferecidos em duas arquiteturas — densa e mistura de especialistas (MoE) — em quatro tamanhos: E2B, E4B, 26B A4B e 31B. Os modelos Gemma 4 apresentam inferência de alto desempenho, processamento multimodal estendido e otimização no dispositivo. Eles empregam um mecanismo de atenção híbrido com pares chave-valor unificados e RoPE escalonado (p-RoPE) em camadas globais. Notavelmente, o modelo 26B A4B MoE ativa apenas 3,8 bilhões de parâmetros durante a inferência, alcançando velocidades comparáveis a um modelo de 4 bilhões de parâmetros, aumentando a eficiência e o desempenho.