Perplexity đã công bố quy trình đào tạo sau cho một đại lý tìm kiếm web, sử dụng các mô hình mã nguồn mở Qwen3.5-122B-A10B và Qwen3.5-397B-A17B. Quy trình này bao gồm hai giai đoạn: tinh chỉnh có giám sát (SFT) để thiết lập hành vi triển khai, sau đó là học tăng cường chính sách trực tuyến (RL) nhằm nâng cao độ chính xác và hiệu quả tìm kiếm. Giai đoạn RL sử dụng thuật toán GRPO, dùng bộ dữ liệu QA đa bước tổng hợp và dữ liệu đối thoại chung để duy trì sự tuân thủ hướng dẫn và ngăn ngừa sự suy giảm hành vi.
Mô hình Qwen3.5-397B-SFT-RL sau đào tạo cho thấy hiệu suất vượt trội trên các tiêu chuẩn tìm kiếm, đạt độ chính xác 57,3% trên FRAMES chỉ với một lần gọi công cụ, vượt qua GPT-5.4 và Sonnet 4.6. Với ngân sách vừa phải, độ chính xác của nó đạt 73,9% với chi phí 0,02 đô la cho mỗi truy vấn, vượt trội hơn các đối thủ về cả độ chính xác và hiệu quả chi phí.
Perplexity Ra Mắt Phương Pháp Hậu Huấn Luyện Cho Đại Lý Tìm Kiếm Web Nâng Cao
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
