GPT-5.5を含むAIモデルは、ジュニアの金融アナリストのワークフローをシミュレートするVals AIの新しいFinance Agent v2ベンチマークの要求に応えるのに苦戦しています。このテストは927の専門家によるレビュー済みの質問で構成されており、GPT-5.5は最高精度51.76%を達成し、Claude Opus 4.7やClaude Sonnet 4.6をわずかに上回りました。このベンチマークは、モデルが広範な財務報告書の中から関連情報を自律的に見つけ出し、複雑な計算を行うことを要求しており、高精度の財務分析におけるAIの課題を浮き彫りにしています。 基本的な情報検索タスクの改善にもかかわらず、結果はAIが金融分野で人間のアナリストに取って代わるにはまだ遠いことを示しています。厳格な採点基準の下で、すべての主要モデルは40%未満のスコアであり、最も難しいカテゴリーでは23%まで低下しました。このテストは、厳しい財務分析の要求を満たすためにAIのさらなる進歩が必要であることを強調しています。