Perplexityは、オープンソースモデルであるQwen3.5-122B-A10BおよびQwen3.5-397B-A17Bを活用したウェブ検索エージェントのポストトレーニングプロセスを公開しました。このプロセスは、展開時の挙動を確立するための教師ありファインチューニング(SFT)と、検索の精度と効率を向上させるためのオンラインポリシー強化学習(RL)の2段階アプローチで構成されています。RL段階では、GRPOアルゴリズムを用い、合成マルチホップQAデータセットと一般的な対話データを使用して指示の遵守を維持し、行動の劣化を防いでいます。
ポストトレーニングされたQwen3.5-397B-SFT-RLモデルは、検索ベンチマークで優れた性能を示しており、単一のツールコールでFRAMESにおいて57.3%の精度を達成し、GPT-5.4やSonnet 4.6を上回っています。適度な予算で、1クエリあたり0.02ドルで73.9%の精度に達し、精度とコスト効率の両面で競合他社を凌駕しています。
Perplexity、強化されたウェブ検索エージェントのためのポストトレーニング手法を発表
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
