A Google DeepMind tornou de código aberto a família Gemma 4 de modelos multimodais, que suportam entradas de texto e imagem, com modelos menores também acomodando áudio. Esses modelos geram saídas de texto e estão disponíveis em variantes pré-treinadas e ajustadas por instrução. Eles apresentam uma janela de contexto de até 256 mil tokens e suportam mais de 140 idiomas, oferecidos em duas arquiteturas — densa e mistura de especialistas (MoE) — em quatro tamanhos: E2B, E4B, 26B A4B e 31B.
Os modelos Gemma 4 apresentam inferência de alto desempenho, processamento multimodal estendido e otimização no dispositivo. Eles empregam um mecanismo de atenção híbrido com pares chave-valor unificados e RoPE escalonado (p-RoPE) em camadas globais. Notavelmente, o modelo 26B A4B MoE ativa apenas 3,8 bilhões de parâmetros durante a inferência, alcançando velocidades comparáveis a um modelo de 4 bilhões de parâmetros, aumentando a eficiência e o desempenho.
Google DeepMind Torna Open Source a Família de Modelos Multimodais Gemma 4
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
