Perplexity ha revelado su proceso de post-entrenamiento para un agente de búsqueda web, utilizando los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B. El proceso implica un enfoque en dos etapas: ajuste fino supervisado (SFT) para establecer comportamientos de despliegue, seguido de un aprendizaje por refuerzo de políticas en línea (RL) para mejorar la precisión y eficiencia de la búsqueda. La etapa de RL emplea el algoritmo GRPO, utilizando un conjunto de datos sintético de preguntas y respuestas de múltiples saltos y datos de diálogo general para mantener la adherencia a las instrucciones y prevenir la degradación del comportamiento.
El modelo Qwen3.5-397B-SFT-RL post-entrenado demuestra un rendimiento superior en los puntos de referencia de búsqueda, alcanzando un 57.3% de precisión en FRAMES con una sola llamada a la herramienta, superando a GPT-5.4 y Sonnet 4.6. Con un presupuesto moderado, su precisión alcanza el 73.9% a $0.02 por consulta, superando a los competidores tanto en precisión como en eficiencia de costos.
Perplexity presenta un método post-entrenamiento para mejorar el agente de búsqueda web
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
