Google DeepMind опубликовала в открытом доступе семейство мультимодальных моделей Gemma 4, которые поддерживают ввод текста и изображений, а более компактные модели также работают с аудио. Эти модели генерируют текстовые ответы и доступны как в предварительно обученных, так и в вариантах с настройкой по инструкциям. Они обладают контекстным окном до 256 тысяч токенов и поддерживают более 140 языков, предлагаются в двух архитектурах — плотной и смеси экспертов (MoE) — в четырёх размерах: E2B, E4B, 26B A4B и 31B.
Модели Gemma 4 обеспечивают высокопроизводительный вывод, расширенную мультимодальную обработку и оптимизацию на устройстве. Они используют гибридный механизм внимания с объединёнными ключами и значениями и масштабируемый RoPE (p-RoPE) на глобальных слоях. Особенно примечательно, что модель 26B A4B MoE активирует всего 3,8 миллиарда параметров во время вывода, достигая скорости, сопоставимой с моделью на 4 миллиарда параметров, что повышает эффективность и производительность.
Google DeepMind открывает исходный код семейства мультимодальных моделей Gemma 4
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
