알리바바, 이중 데이터 플라이휠 AgenticQwen 모델 오픈소스 공개

알리바바의 PAI 팀이 산업용 도구 호출을 위해 설계된 경량 에이전트 언어 모델인 AgenticQwen 모델을 출시했으며, 8B 및 30B-A3B 버전으로 오픈소스화했습니다. 이 모델은 새로운 "이중 데이터 플라이휠" 강화 학습 프레임워크를 활용하여 대형 모델과 유사한 성능을 유지하면서 추론 비용을 줄였습니다. 이중 플라이휠 접근법은 복잡한 의사결정 시나리오를 생성하고 모델 오류로부터 개선함으로써 성능을 향상시킵니다. AgenticQwen-8B는 TAU-2 및 BFCL-V4와 같은 벤치마크에서 평균 47.4점을 기록하며, 기본 Qwen3-8B를 능가하고 Qwen3-235B 모델에 근접한 성과를 보였습니다. 30B-A3B 버전은 3B 매개변수만 활성화하여 50.2점을 기록했습니다. 성공에도 불구하고, 이 모델은 40K 컨텍스트 길이 제한으로 인해 심층 검색 작업에서 어려움을 겪고 있습니다. 이 모델은 이미 알리바바 내부 시스템에서 사용 중이며, 더 짧은 추론 시간으로 향상된 성능을 제공합니다.

함께 보면 좋은 콘텐츠