Google DeepMind ha hecho de código abierto la familia de modelos multimodales Gemma 4, que soportan entradas de texto e imagen, con modelos más pequeños que también admiten audio. Estos modelos generan salidas de texto y están disponibles en variantes tanto preentrenadas como ajustadas por instrucciones. Cuentan con una ventana de contexto de hasta 256K tokens y soportan más de 140 idiomas, ofrecidos en dos arquitecturas: densa y mezcla de expertos (MoE), en cuatro tamaños: E2B, E4B, 26B A4B y 31B.
Los modelos Gemma 4 presumen de una inferencia de alto rendimiento, procesamiento multimodal extendido y optimización en el dispositivo. Emplean un mecanismo de atención híbrido con pares clave-valor unificados y RoPE escalado (p-RoPE) a través de capas globales. Notablemente, el modelo 26B A4B MoE activa solo 3.8 mil millones de parámetros durante la inferencia, logrando velocidades comparables a un modelo de 4 mil millones de parámetros, mejorando la eficiencia y el rendimiento.
Google DeepMind publica como código abierto la familia de modelos multimodales Gemma 4
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
