Les modèles IA peinent au test d'analyste financier de Vals

Les modèles d'IA, y compris GPT-5.5, ont eu du mal à répondre aux exigences du nouveau benchmark Finance Agent v2 de Vals AI, qui simule le flux de travail des analystes financiers juniors. Le test, composé de 927 questions évaluées par des experts, a vu GPT-5.5 atteindre une précision maximale de seulement 51,76 %, légèrement devant Claude Opus 4.7 et Claude Sonnet 4.6. Ce benchmark exige que les modèles localisent de manière autonome les informations pertinentes dans de vastes rapports financiers et effectuent des calculs complexes, mettant en lumière les défis auxquels l'IA est confrontée dans l'analyse financière de haute précision. Malgré des améliorations dans les tâches de récupération de base, les résultats indiquent que l'IA est encore loin de remplacer les analystes humains en finance. Sous des critères de notation stricts, tous les modèles leaders ont obtenu des scores inférieurs à 40 %, les catégories les plus difficiles affichant des scores aussi bas que 23 %. Ce test souligne la nécessité de progrès supplémentaires en IA pour répondre aux exigences rigoureuses de l'analyse financière.