Modelos de IA fallan en prueba financiera de Vals AI

Los modelos de IA, incluido GPT-5.5, han tenido dificultades para cumplir con las exigencias del nuevo benchmark Finance Agent v2 de Vals AI, que simula el flujo de trabajo de analistas financieros junior. La prueba, que consta de 927 preguntas revisadas por expertos, mostró que GPT-5.5 alcanzó una precisión máxima de solo el 51,76%, ligeramente por delante de Claude Opus 4.7 y Claude Sonnet 4.6. El benchmark requiere que los modelos localicen de forma autónoma información relevante dentro de extensos informes financieros y realicen cálculos complejos, lo que resalta los desafíos que enfrenta la IA en el análisis financiero de alta precisión. A pesar de las mejoras en tareas básicas de recuperación, los resultados indican que la IA aún está lejos de reemplazar a los analistas humanos en finanzas. Bajo estrictos estándares de puntuación, todos los modelos líderes obtuvieron menos del 40%, con las categorías más desafiantes alcanzando puntuaciones tan bajas como el 23%. La prueba subraya la necesidad de avances adicionales en la IA para cumplir con las rigurosas demandas del análisis financiero.