Perplexity, açık kaynak modelleri Qwen3.5-122B-A10B ve Qwen3.5-397B-A17B'yi kullanarak bir web arama ajanı için eğitim sonrası sürecini açıkladı. Süreç, dağıtım davranışlarını belirlemek için denetimli ince ayar (SFT) ve ardından arama doğruluğunu ve verimliliğini artırmak için çevrimiçi politika pekiştirmeli öğrenme (RL) olmak üzere iki aşamalı bir yaklaşımı içeriyor. RL aşaması, talimatlara uyumu sürdürmek ve davranış bozulmasını önlemek için sentetik çok adımlı Soru-Cevap (QA) veri seti ve genel diyalog verilerini kullanan GRPO algoritmasını kullanıyor. Eğitim sonrası Qwen3.5-397B-SFT-RL modeli, tek bir araç çağrısıyla FRAMES üzerinde %57,3 doğruluk elde ederek GPT-5.4 ve Sonnet 4.6'yı geride bırakarak arama kıyaslamalarında üstün performans sergiliyor. Orta düzey bir bütçeyle, sorgu başına 0,02 dolarda doğruluğu %73,9'a ulaşıyor ve hem doğruluk hem de maliyet etkinliği açısından rakiplerini geride bırakıyor.