퍼플렉시티는 오픈소스 모델 Qwen3.5-122B-A10B와 Qwen3.5-397B-A17B를 활용한 웹 검색 에이전트의 사후 학습 과정을 공개했습니다. 이 과정은 배포 행동을 확립하기 위한 감독 미세 조정(SFT)과 검색 정확도 및 효율성을 향상시키기 위한 온라인 정책 강화 학습(RL)의 두 단계 접근법으로 구성됩니다. RL 단계에서는 GRPO 알고리즘을 사용하며, 합성 다중 홉 QA 데이터셋과 일반 대화 데이터를 활용해 지침 준수를 유지하고 행동 저하를 방지합니다. 사후 학습된 Qwen3.5-397B-SFT-RL 모델은 검색 벤치마크에서 우수한 성능을 보이며, 단일 도구 호출로 FRAMES에서 57.3%의 정확도를 달성해 GPT-5.4와 Sonnet 4.6을 능가합니다. 적당한 예산으로는 쿼리당 0.02달러에 73.9%의 정확도를 기록하며, 정확도와 비용 효율성 모두에서 경쟁자를 앞섭니다.