구글 딥마인드는 텍스트와 이미지 입력을 지원하는 Gemma 4 멀티모달 모델 군을 오픈소스로 공개했으며, 더 작은 모델은 오디오도 지원합니다. 이 모델들은 텍스트 출력을 생성하며, 사전 학습된 버전과 지침에 맞게 조정된 버전 모두에서 제공됩니다. 최대 256K 토큰의 컨텍스트 창을 특징으로 하며 140개 이상의 언어를 지원하고, 두 가지 아키텍처(밀집형과 전문가 혼합형(MoE))로 제공되며, 네 가지 크기(E2B, E4B, 26B A4B, 31B)가 있습니다. Gemma 4 모델은 고성능 추론, 확장된 멀티모달 처리 및 디바이스 내 최적화를 자랑합니다. 이들은 통합된 키-값 쌍과 전역 계층 전반에 걸친 스케일된 RoPE(p-RoPE)를 사용하는 하이브리드 어텐션 메커니즘을 채택했습니다. 특히 26B A4B MoE 모델은 추론 시 38억 개의 파라미터만 활성화하여 40억 파라미터 모델과 비슷한 속도를 달성해 효율성과 성능을 향상시켰습니다.