A Perplexity divulgou seu processo de pós-treinamento para um agente de busca na web, utilizando os modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B. O processo envolve uma abordagem em duas etapas: ajuste fino supervisionado (SFT) para estabelecer comportamentos de implantação, seguido por aprendizado por reforço de política online (RL) para aprimorar a precisão e eficiência da busca. A fase de RL emprega o algoritmo GRPO, utilizando um conjunto de dados sintético de perguntas e respostas multi-hop e dados gerais de diálogo para manter a aderência às instruções e evitar a degradação do comportamento. O modelo Qwen3.5-397B-SFT-RL pós-treinado demonstra desempenho superior em benchmarks de busca, alcançando 57,3% de precisão no FRAMES com uma única chamada de ferramenta, superando o GPT-5.4 e o Sonnet 4.6. Com um orçamento moderado, sua precisão chega a 73,9% a $0,02 por consulta, superando os concorrentes tanto em precisão quanto em custo-eficiência.