STEP3-VL-10B Modell stellt Effizienzgrenzen unter 10 Milliarden in Frage

Das neu vorgestellte Modell STEP3-VL-10B von StepFun AI definiert die Fähigkeiten von Modellen mit weniger als 10 Milliarden Parametern neu. Trotz seiner relativ kleinen Größe liefert das Modell eine Leistung, die mit deutlich größeren Modellen wie GLM-4.6V-106B und Qwen3-VL-235B vergleichbar ist. Es erzielte beeindruckende Benchmark-Ergebnisse, darunter 94,43 % bei AIME2025 für mathematisches Denken und 80,11 % bei MMMU für Expertenwissen im multimodalen Verständnis. STEP3-VL-10B integriert eine neuartige Technik namens Parallel Coordinated Reasoning (PaCoRe), um die Berechnung zur Testzeit zu verbessern. Die Entwicklung des Modells umfasste einen rigorosen Nachtrainingsprozess mit über 1.000 Iterationen des Reinforcement Learning. Es wurde mit 1,2 Billionen multimodalen Tokens trainiert, wobei der Schwerpunkt auf wichtigen Bereichen wie K-12-Bildung, OCR, GUI und mathematischem Denken lag.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.

Das könnte Ihnen auch gefallen