GPT-5.5를 포함한 AI 모델들은 주니어 금융 분석가의 업무 흐름을 시뮬레이션하는 Vals AI의 새로운 Finance Agent v2 벤치마크 요구 사항을 충족하는 데 어려움을 겪고 있습니다. 927개의 전문가 검토 질문으로 구성된 이 테스트에서 GPT-5.5는 51.76%의 최고 정확도를 기록했으며, 이는 Claude Opus 4.7과 Claude Sonnet 4.6보다 약간 앞선 수치입니다. 이 벤치마크는 모델이 방대한 금융 보고서 내에서 관련 정보를 자율적으로 찾아내고 복잡한 계산을 수행해야 하며, 이는 AI가 고정밀 금융 분석에서 직면하는 어려움을 부각시킵니다. 기본 검색 작업에서의 개선에도 불구하고, 결과는 AI가 금융 분야에서 인간 분석가를 대체하기에는 아직 멀었다는 점을 보여줍니다. 엄격한 채점 기준 하에서 모든 주요 모델은 40% 미만의 점수를 받았으며, 가장 어려운 카테고리에서는 23%까지 점수가 떨어졌습니다. 이 테스트는 금융 분석의 엄격한 요구 사항을 충족하기 위해 AI의 추가 발전이 필요함을 강조합니다.