Modelos de IA, incluindo o GPT-5.5, têm enfrentado dificuldades para atender às exigências do novo benchmark Finance Agent v2 da Vals AI, que simula o fluxo de trabalho de analistas financeiros juniores. O teste, composto por 927 perguntas revisadas por especialistas, mostrou que o GPT-5.5 alcançou uma precisão máxima de apenas 51,76%, ligeiramente à frente do Claude Opus 4.7 e do Claude Sonnet 4.6. O benchmark exige que os modelos localizem autonomamente informações relevantes em extensos relatórios financeiros e realizem cálculos complexos, destacando os desafios que a IA enfrenta na análise financeira de alta precisão.
Apesar das melhorias nas tarefas básicas de recuperação, os resultados indicam que a IA ainda está longe de substituir os analistas humanos em finanças. Sob padrões rigorosos de pontuação, todos os principais modelos obtiveram menos de 40%, com as categorias mais desafiadoras apresentando pontuações tão baixas quanto 23%. O teste ressalta a necessidade de avanços adicionais na IA para atender às rigorosas demandas da análise financeira.
Modelos de IA enfrentam dificuldades no novo teste de analista financeiro da Vals AI
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
