Google DeepMind veröffentlicht Gemma 4 Multimodale Modelle

Google DeepMind hat die Gemma 4-Familie multimodaler Modelle als Open Source veröffentlicht, die Texteingaben und Bildeingaben unterstützen, wobei kleinere Modelle auch Audio verarbeiten können. Diese Modelle erzeugen Textausgaben und sind sowohl in vortrainierten als auch in anweisungsoptimierten Varianten verfügbar. Sie verfügen über ein Kontextfenster von bis zu 256.000 Tokens und unterstützen mehr als 140 Sprachen. Angeboten werden sie in zwei Architekturen – dicht und Mixture-of-Experts (MoE) – in vier Größen: E2B, E4B, 26B A4B und 31B. Die Gemma 4-Modelle zeichnen sich durch leistungsstarke Inferenz, erweiterte multimodale Verarbeitung und Optimierung auf dem Gerät aus. Sie verwenden einen hybriden Aufmerksamkeitsmechanismus mit einheitlichen Schlüssel-Wert-Paaren und skaliertem RoPE (p-RoPE) über globale Schichten hinweg. Bemerkenswert ist, dass das 26B A4B MoE-Modell während der Inferenz nur 3,8 Milliarden Parameter aktiviert und dabei Geschwindigkeiten erreicht, die mit einem Modell mit 4 Milliarden Parametern vergleichbar sind, was Effizienz und Leistung verbessert.

Das könnte Ihnen auch gefallen