Perplexity enthüllt Post-Training-Methode für Web-Suchagent

Perplexity hat seinen Nachtrainingsprozess für einen Web-Suchagenten offengelegt, der die Open-Source-Modelle Qwen3.5-122B-A10B und Qwen3.5-397B-A17B verwendet. Der Prozess umfasst einen zweistufigen Ansatz: überwachtes Feintuning (SFT) zur Festlegung des Einsatzverhaltens, gefolgt von Online-Policy-Verstärkungslernen (RL), um die Suchgenauigkeit und Effizienz zu verbessern. Die RL-Phase verwendet den GRPO-Algorithmus und nutzt einen synthetischen Multi-Hop-QA-Datensatz sowie allgemeine Dialogdaten, um die Einhaltung der Anweisungen sicherzustellen und Verhaltensverschlechterungen zu verhindern. Das nachtrainierte Modell Qwen3.5-397B-SFT-RL zeigt überlegene Leistungen bei Such-Benchmarks und erreicht eine Genauigkeit von 57,3 % bei FRAMES mit einem einzigen Tool-Aufruf, womit es GPT-5.4 und Sonnet 4.6 übertrifft. Bei einem moderaten Budget erreicht seine Genauigkeit 73,9 % bei 0,02 $ pro Anfrage und übertrifft damit die Konkurrenz sowohl in Genauigkeit als auch in Kosteneffizienz.