퍼플렉시티, 향상된 웹 검색 에이전트를 위한 사후 학습 방법 공개

퍼플렉시티는 오픈소스 모델 Qwen3.5-122B-A10B와 Qwen3.5-397B-A17B를 활용한 웹 검색 에이전트의 사후 학습 과정을 공개했습니다. 이 과정은 배포 행동을 확립하기 위한 감독 미세 조정(SFT)과 검색 정확도 및 효율성을 향상시키기 위한 온라인 정책 강화 학습(RL)의 두 단계 접근법으로 구성됩니다. RL 단계에서는 GRPO 알고리즘을 사용하며, 합성 다중 홉 QA 데이터셋과 일반 대화 데이터를 활용해 지침 준수를 유지하고 행동 저하를 방지합니다. 사후 학습된 Qwen3.5-397B-SFT-RL 모델은 검색 벤치마크에서 우수한 성능을 보이며, 단일 도구 호출로 FRAMES에서 57.3%의 정확도를 달성해 GPT-5.4와 Sonnet 4.6을 능가합니다. 적당한 예산으로는 쿼리당 0.02달러에 73.9%의 정확도를 기록하며, 정확도와 비용 효율성 모두에서 경쟁자를 앞섭니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.