Perplexityが明かすウェブ検索エージェントの後学習法

Perplexityは、オープンソースモデルであるQwen3.5-122B-A10BおよびQwen3.5-397B-A17Bを活用したウェブ検索エージェントのポストトレーニングプロセスを公開しました。このプロセスは、展開時の挙動を確立するための教師ありファインチューニング（SFT）と、検索の精度と効率を向上させるためのオンラインポリシー強化学習（RL）の2段階アプローチで構成されています。RL段階では、GRPOアルゴリズムを用い、合成マルチホップQAデータセットと一般的な対話データを使用して指示の遵守を維持し、行動の劣化を防いでいます。ポストトレーニングされたQwen3.5-397B-SFT-RLモデルは、検索ベンチマークで優れた性能を示しており、単一のツールコールでFRAMESにおいて57.3％の精度を達成し、GPT-5.4やSonnet 4.6を上回っています。適度な予算で、1クエリあたり0.02ドルで73.9％の精度に達し、精度とコスト効率の両面で競合他社を凌駕しています。