Perplexity раскрыла процесс постобучения своего веб-поискового агента, использующего открытые модели Qwen3.5-122B-A10B и Qwen3.5-397B-A17B. Процесс включает двухэтапный подход: контролируемую донастройку (SFT) для установления поведения при развертывании, за которой следует онлайн-обучение с подкреплением (RL) для повышения точности и эффективности поиска. На этапе RL применяется алгоритм GRPO, использующий синтетический набор данных для многозадачных вопросов-ответов и общие диалоговые данные для соблюдения инструкций и предотвращения деградации поведения.
Постобученная модель Qwen3.5-397B-SFT-RL демонстрирует превосходные результаты на поисковых тестах, достигая точности 57,3% на FRAMES при одном вызове инструмента, превосходя GPT-5.4 и Sonnet 4.6. При умеренном бюджете её точность достигает 73,9% при стоимости $0,02 за запрос, опережая конкурентов как по точности, так и по экономической эффективности.
Perplexity представила метод постобучения для улучшенного веб-поискового агента
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
