Les modèles d'IA, y compris GPT-5.5, ont eu du mal à répondre aux exigences du nouveau benchmark Finance Agent v2 de Vals AI, qui simule le flux de travail des analystes financiers juniors. Le test, composé de 927 questions évaluées par des experts, a vu GPT-5.5 atteindre une précision maximale de seulement 51,76 %, légèrement devant Claude Opus 4.7 et Claude Sonnet 4.6. Ce benchmark exige que les modèles localisent de manière autonome les informations pertinentes dans de vastes rapports financiers et effectuent des calculs complexes, mettant en lumière les défis auxquels l'IA est confrontée dans l'analyse financière de haute précision.
Malgré des améliorations dans les tâches de récupération de base, les résultats indiquent que l'IA est encore loin de remplacer les analystes humains en finance. Sous des critères de notation stricts, tous les modèles leaders ont obtenu des scores inférieurs à 40 %, les catégories les plus difficiles affichant des scores aussi bas que 23 %. Ce test souligne la nécessité de progrès supplémentaires en IA pour répondre aux exigences rigoureuses de l'analyse financière.
Les modèles d'IA peinent lors du nouveau test d'analyste financier de Vals AI
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
