Perplexity ha revelado su proceso de post-entrenamiento para un agente de búsqueda web, utilizando los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B. El proceso implica un enfoque en dos etapas: ajuste fino supervisado (SFT) para establecer comportamientos de despliegue, seguido de un aprendizaje por refuerzo de políticas en línea (RL) para mejorar la precisión y eficiencia de la búsqueda. La etapa de RL emplea el algoritmo GRPO, utilizando un conjunto de datos sintético de preguntas y respuestas de múltiples saltos y datos de diálogo general para mantener la adherencia a las instrucciones y prevenir la degradación del comportamiento. El modelo Qwen3.5-397B-SFT-RL post-entrenado demuestra un rendimiento superior en los puntos de referencia de búsqueda, alcanzando un 57.3% de precisión en FRAMES con una sola llamada a la herramienta, superando a GPT-5.4 y Sonnet 4.6. Con un presupuesto moderado, su precisión alcanza el 73.9% a $0.02 por consulta, superando a los competidores tanto en precisión como en eficiencia de costos.