GPT-5.5を含むAIモデルは、ジュニアの金融アナリストのワークフローをシミュレートするVals AIの新しいFinance Agent v2ベンチマークの要求に応えるのに苦戦しています。このテストは927の専門家によるレビュー済みの質問で構成されており、GPT-5.5は最高精度51.76%を達成し、Claude Opus 4.7やClaude Sonnet 4.6をわずかに上回りました。このベンチマークは、モデルが広範な財務報告書の中から関連情報を自律的に見つけ出し、複雑な計算を行うことを要求しており、高精度の財務分析におけるAIの課題を浮き彫りにしています。
基本的な情報検索タスクの改善にもかかわらず、結果はAIが金融分野で人間のアナリストに取って代わるにはまだ遠いことを示しています。厳格な採点基準の下で、すべての主要モデルは40%未満のスコアであり、最も難しいカテゴリーでは23%まで低下しました。このテストは、厳しい財務分析の要求を満たすためにAIのさらなる進歩が必要であることを強調しています。
Vals AIの新しい金融アナリストテストでAIモデルが苦戦
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
