Google DeepMind hat die Gemma 4-Familie multimodaler Modelle als Open Source veröffentlicht, die Texteingaben und Bildeingaben unterstützen, wobei kleinere Modelle auch Audio verarbeiten können. Diese Modelle erzeugen Textausgaben und sind sowohl in vortrainierten als auch in anweisungsoptimierten Varianten verfügbar. Sie verfügen über ein Kontextfenster von bis zu 256.000 Tokens und unterstützen mehr als 140 Sprachen. Angeboten werden sie in zwei Architekturen – dicht und Mixture-of-Experts (MoE) – in vier Größen: E2B, E4B, 26B A4B und 31B.
Die Gemma 4-Modelle zeichnen sich durch leistungsstarke Inferenz, erweiterte multimodale Verarbeitung und Optimierung auf dem Gerät aus. Sie verwenden einen hybriden Aufmerksamkeitsmechanismus mit einheitlichen Schlüssel-Wert-Paaren und skaliertem RoPE (p-RoPE) über globale Schichten hinweg. Bemerkenswert ist, dass das 26B A4B MoE-Modell während der Inferenz nur 3,8 Milliarden Parameter aktiviert und dabei Geschwindigkeiten erreicht, die mit einem Modell mit 4 Milliarden Parametern vergleichbar sind, was Effizienz und Leistung verbessert.
Google DeepMind stellt Gemma 4 Multimodale Modellfamilie als Open Source bereit
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
