Perplexity a dévoilé son processus de post-entraînement pour un agent de recherche web, utilisant les modèles open-source Qwen3.5-122B-A10B et Qwen3.5-397B-A17B. Le processus comprend une approche en deux étapes : un ajustement supervisé (SFT) pour établir les comportements de déploiement, suivi d'un apprentissage par renforcement en ligne (RL) pour améliorer la précision et l'efficacité de la recherche. La phase RL utilise l'algorithme GRPO, en s'appuyant sur un ensemble de données synthétiques de questions-réponses multi-sauts et des données de dialogue général pour maintenir le respect des instructions et éviter la dégradation des comportements. Le modèle post-entraîné Qwen3.5-397B-SFT-RL démontre une performance supérieure sur les benchmarks de recherche, atteignant une précision de 57,3 % sur FRAMES avec un seul appel d'outil, surpassant GPT-5.4 et Sonnet 4.6. Avec un budget modéré, sa précision atteint 73,9 % à 0,02 $ par requête, surpassant les concurrents tant en précision qu'en rapport coût-efficacité.