Модели ИИ испытывают трудности в тесте финансового аналитика Vals AI

Модели искусственного интеллекта, включая GPT-5.5, испытывают трудности с выполнением требований нового эталона Finance Agent v2 от Vals AI, который имитирует рабочий процесс младших финансовых аналитиков. Тест, состоящий из 927 вопросов, проверенных экспертами, показал, что GPT-5.5 достиг максимальной точности всего 51,76%, немного опередив Claude Opus 4.7 и Claude Sonnet 4.6. Эталон требует от моделей самостоятельно находить релевантную информацию в обширных финансовых отчетах и выполнять сложные вычисления, что подчеркивает сложности, с которыми сталкивается ИИ при высокоточной финансовой аналитике. Несмотря на улучшения в базовых задачах поиска информации, результаты показывают, что ИИ все еще далек от замены человеческих аналитиков в финансах. При строгих критериях оценки все ведущие модели набрали менее 40%, а в самых сложных категориях результаты опускались до 23%. Тест подчеркивает необходимость дальнейших достижений в области ИИ для удовлетворения строгих требований финансового анализа.