구글 딥마인드는 텍스트와 이미지 입력을 지원하는 Gemma 4 멀티모달 모델 군을 오픈소스로 공개했으며, 더 작은 모델은 오디오도 지원합니다. 이 모델들은 텍스트 출력을 생성하며, 사전 학습된 버전과 지침에 맞게 조정된 버전 모두에서 제공됩니다. 최대 256K 토큰의 컨텍스트 창을 특징으로 하며 140개 이상의 언어를 지원하고, 두 가지 아키텍처(밀집형과 전문가 혼합형(MoE))로 제공되며, 네 가지 크기(E2B, E4B, 26B A4B, 31B)가 있습니다.
Gemma 4 모델은 고성능 추론, 확장된 멀티모달 처리 및 디바이스 내 최적화를 자랑합니다. 이들은 통합된 키-값 쌍과 전역 계층 전반에 걸친 스케일된 RoPE(p-RoPE)를 사용하는 하이브리드 어텐션 메커니즘을 채택했습니다. 특히 26B A4B MoE 모델은 추론 시 38억 개의 파라미터만 활성화하여 40억 파라미터 모델과 비슷한 속도를 달성해 효율성과 성능을 향상시켰습니다.
구글 딥마인드, 젬마 4 멀티모달 모델 패밀리 오픈소스 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
