GPT-5.5를 포함한 AI 모델들은 주니어 금융 분석가의 업무 흐름을 시뮬레이션하는 Vals AI의 새로운 Finance Agent v2 벤치마크 요구 사항을 충족하는 데 어려움을 겪고 있습니다. 927개의 전문가 검토 질문으로 구성된 이 테스트에서 GPT-5.5는 51.76%의 최고 정확도를 기록했으며, 이는 Claude Opus 4.7과 Claude Sonnet 4.6보다 약간 앞선 수치입니다. 이 벤치마크는 모델이 방대한 금융 보고서 내에서 관련 정보를 자율적으로 찾아내고 복잡한 계산을 수행해야 하며, 이는 AI가 고정밀 금융 분석에서 직면하는 어려움을 부각시킵니다.
기본 검색 작업에서의 개선에도 불구하고, 결과는 AI가 금융 분야에서 인간 분석가를 대체하기에는 아직 멀었다는 점을 보여줍니다. 엄격한 채점 기준 하에서 모든 주요 모델은 40% 미만의 점수를 받았으며, 가장 어려운 카테고리에서는 23%까지 점수가 떨어졌습니다. 이 테스트는 금융 분석의 엄격한 요구 사항을 충족하기 위해 AI의 추가 발전이 필요함을 강조합니다.
AI 모델, Vals AI의 새로운 금융 분석가 테스트에서 어려움 겪어
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
