Google DeepMind đã công khai mã nguồn của dòng mô hình đa phương tiện Gemma 4, hỗ trợ đầu vào văn bản và hình ảnh, với các mô hình nhỏ hơn cũng hỗ trợ âm thanh. Các mô hình này tạo ra đầu ra văn bản và có sẵn dưới dạng đã được huấn luyện trước và biến thể được điều chỉnh theo hướng dẫn. Chúng có cửa sổ ngữ cảnh lên đến 256K token và hỗ trợ hơn 140 ngôn ngữ, được cung cấp trong hai kiến trúc — kiến trúc dày đặc và hỗn hợp chuyên gia (MoE) — với bốn kích thước: E2B, E4B, 26B A4B và 31B. Các mô hình Gemma 4 tự hào về khả năng suy luận hiệu suất cao, xử lý đa phương tiện mở rộng và tối ưu hóa trên thiết bị. Chúng sử dụng cơ chế chú ý lai với các cặp khóa-giá trị thống nhất và RoPE được mở rộng (p-RoPE) trên các lớp toàn cục. Đáng chú ý, mô hình 26B A4B MoE chỉ kích hoạt 3,8 tỷ tham số trong quá trình suy luận, đạt tốc độ tương đương với mô hình 4 tỷ tham số, nâng cao hiệu quả và hiệu suất.