Perplexity, açık kaynak modelleri Qwen3.5-122B-A10B ve Qwen3.5-397B-A17B'yi kullanarak bir web arama ajanı için eğitim sonrası sürecini açıkladı. Süreç, dağıtım davranışlarını belirlemek için denetimli ince ayar (SFT) ve ardından arama doğruluğunu ve verimliliğini artırmak için çevrimiçi politika pekiştirmeli öğrenme (RL) olmak üzere iki aşamalı bir yaklaşımı içeriyor. RL aşaması, talimatlara uyumu sürdürmek ve davranış bozulmasını önlemek için sentetik çok adımlı Soru-Cevap (QA) veri seti ve genel diyalog verilerini kullanan GRPO algoritmasını kullanıyor.
Eğitim sonrası Qwen3.5-397B-SFT-RL modeli, tek bir araç çağrısıyla FRAMES üzerinde %57,3 doğruluk elde ederek GPT-5.4 ve Sonnet 4.6'yı geride bırakarak arama kıyaslamalarında üstün performans sergiliyor. Orta düzey bir bütçeyle, sorgu başına 0,02 dolarda doğruluğu %73,9'a ulaşıyor ve hem doğruluk hem de maliyet etkinliği açısından rakiplerini geride bırakıyor.
Perplexity, Geliştirilmiş Web Arama Ajanı için Eğitim Sonrası Yöntemini Tanıttı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
