Google DeepMind опубликовала в открытом доступе семейство мультимодальных моделей Gemma 4, которые поддерживают ввод текста и изображений, а более компактные модели также работают с аудио. Эти модели генерируют текстовые ответы и доступны как в предварительно обученных, так и в вариантах с настройкой по инструкциям. Они обладают контекстным окном до 256 тысяч токенов и поддерживают более 140 языков, предлагаются в двух архитектурах — плотной и смеси экспертов (MoE) — в четырёх размерах: E2B, E4B, 26B A4B и 31B. Модели Gemma 4 обеспечивают высокопроизводительный вывод, расширенную мультимодальную обработку и оптимизацию на устройстве. Они используют гибридный механизм внимания с объединёнными ключами и значениями и масштабируемый RoPE (p-RoPE) на глобальных слоях. Особенно примечательно, что модель 26B A4B MoE активирует всего 3,8 миллиарда параметров во время вывода, достигая скорости, сопоставимой с моделью на 4 миллиарда параметров, что повышает эффективность и производительность.