Perplexity hat seinen Nachtrainingsprozess für einen Web-Suchagenten offengelegt, der die Open-Source-Modelle Qwen3.5-122B-A10B und Qwen3.5-397B-A17B verwendet. Der Prozess umfasst einen zweistufigen Ansatz: überwachtes Feintuning (SFT) zur Festlegung des Einsatzverhaltens, gefolgt von Online-Policy-Verstärkungslernen (RL), um die Suchgenauigkeit und Effizienz zu verbessern. Die RL-Phase verwendet den GRPO-Algorithmus und nutzt einen synthetischen Multi-Hop-QA-Datensatz sowie allgemeine Dialogdaten, um die Einhaltung der Anweisungen sicherzustellen und Verhaltensverschlechterungen zu verhindern.
Das nachtrainierte Modell Qwen3.5-397B-SFT-RL zeigt überlegene Leistungen bei Such-Benchmarks und erreicht eine Genauigkeit von 57,3 % bei FRAMES mit einem einzigen Tool-Aufruf, womit es GPT-5.4 und Sonnet 4.6 übertrifft. Bei einem moderaten Budget erreicht seine Genauigkeit 73,9 % bei 0,02 $ pro Anfrage und übertrifft damit die Konkurrenz sowohl in Genauigkeit als auch in Kosteneffizienz.
Perplexity stellt Post-Training-Methode für verbesserten Web-Suchagenten vor
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
