Modelos de IA têm dificuldades no teste financeiro da Vals AI

Modelos de IA, incluindo o GPT-5.5, têm enfrentado dificuldades para atender às exigências do novo benchmark Finance Agent v2 da Vals AI, que simula o fluxo de trabalho de analistas financeiros juniores. O teste, composto por 927 perguntas revisadas por especialistas, mostrou que o GPT-5.5 alcançou uma precisão máxima de apenas 51,76%, ligeiramente à frente do Claude Opus 4.7 e do Claude Sonnet 4.6. O benchmark exige que os modelos localizem autonomamente informações relevantes em extensos relatórios financeiros e realizem cálculos complexos, destacando os desafios que a IA enfrenta na análise financeira de alta precisão. Apesar das melhorias nas tarefas básicas de recuperação, os resultados indicam que a IA ainda está longe de substituir os analistas humanos em finanças. Sob padrões rigorosos de pontuação, todos os principais modelos obtiveram menos de 40%, com as categorias mais desafiadoras apresentando pontuações tão baixas quanto 23%. O teste ressalta a necessidade de avanços adicionais na IA para atender às rigorosas demandas da análise financeira.