A equipe PAI da Alibaba lançou o modelo AgenticQwen, um modelo de linguagem agente leve projetado para invocação de ferramentas em nível industrial, agora disponibilizado como código aberto nas versões 8B e 30B-A3B. Utilizando uma nova estrutura de aprendizado por reforço chamada "duplo volante de dados", o modelo alcança capacidades semelhantes às de grandes modelos com custos reduzidos de inferência. A abordagem do duplo volante melhora o desempenho ao gerar cenários complexos de tomada de decisão e aprimorar-se a partir dos erros do modelo. O AgenticQwen-8B obtém uma média de 47,4 em benchmarks como TAU-2 e BFCL-V4, superando o Qwen3-8B base e se aproximando do modelo Qwen3-235B. A versão 30B-A3B, que ativa apenas 3 bilhões de parâmetros, alcança 50,2. Apesar do sucesso, a limitação de comprimento de contexto de 40 mil tokens do modelo apresenta desafios em tarefas de busca profunda. O modelo já está em uso nos sistemas internos da Alibaba, oferecendo melhor desempenho com tempos de inferência mais curtos.