Модели искусственного интеллекта, включая GPT-5.5, испытывают трудности с выполнением требований нового эталона Finance Agent v2 от Vals AI, который имитирует рабочий процесс младших финансовых аналитиков. Тест, состоящий из 927 вопросов, проверенных экспертами, показал, что GPT-5.5 достиг максимальной точности всего 51,76%, немного опередив Claude Opus 4.7 и Claude Sonnet 4.6. Эталон требует от моделей самостоятельно находить релевантную информацию в обширных финансовых отчетах и выполнять сложные вычисления, что подчеркивает сложности, с которыми сталкивается ИИ при высокоточной финансовой аналитике.
Несмотря на улучшения в базовых задачах поиска информации, результаты показывают, что ИИ все еще далек от замены человеческих аналитиков в финансах. При строгих критериях оценки все ведущие модели набрали менее 40%, а в самых сложных категориях результаты опускались до 23%. Тест подчеркивает необходимость дальнейших достижений в области ИИ для удовлетворения строгих требований финансового анализа.
Модели ИИ испытывают трудности в новом тесте финансового аналитика от Vals AI
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
