A Perplexity divulgou seu processo de pós-treinamento para um agente de busca na web, utilizando os modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B. O processo envolve uma abordagem em duas etapas: ajuste fino supervisionado (SFT) para estabelecer comportamentos de implantação, seguido por aprendizado por reforço de política online (RL) para aprimorar a precisão e eficiência da busca. A fase de RL emprega o algoritmo GRPO, utilizando um conjunto de dados sintético de perguntas e respostas multi-hop e dados gerais de diálogo para manter a aderência às instruções e evitar a degradação do comportamento.
O modelo Qwen3.5-397B-SFT-RL pós-treinado demonstra desempenho superior em benchmarks de busca, alcançando 57,3% de precisão no FRAMES com uma única chamada de ferramenta, superando o GPT-5.4 e o Sonnet 4.6. Com um orçamento moderado, sua precisão chega a 73,9% a $0,02 por consulta, superando os concorrentes tanto em precisão quanto em custo-eficiência.
Perplexity Revela Método Pós-Treinamento para Agente de Busca na Web Aprimorado
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
