Vals AI'nin Finansal Analist Testinde Yapay Zeka Modelleri Zorlanıyor

GPT-5.5 dahil olmak üzere yapay zeka modelleri, genç finansal analistlerin iş akışını simüle eden Vals AI'nın yeni Finance Agent v2 kıstasını karşılamakta zorlandı. Uzmanlar tarafından incelenen 927 sorudan oluşan testte, GPT-5.5 sadece %51,76'lık en yüksek doğruluk oranına ulaşarak Claude Opus 4.7 ve Claude Sonnet 4.6'nın biraz önünde yer aldı. Bu kıstas, modellerin geniş finansal raporlar içinde ilgili bilgileri bağımsız olarak bulmasını ve karmaşık hesaplamalar yapmasını gerektirerek, yapay zekanın yüksek hassasiyetli finansal analizde karşılaştığı zorlukları ortaya koyuyor. Temel bilgi alma görevlerindeki gelişmelere rağmen, sonuçlar yapay zekanın finans alanında insan analistlerin yerini almaktan hâlâ çok uzak olduğunu gösteriyor. Katı puanlama standartları altında, tüm önde gelen modeller %40'ın altında puan alırken, en zorlu kategorilerde puanlar %23'e kadar düştü. Test, finansal analizdeki sıkı gereksinimleri karşılamak için yapay zekada daha fazla ilerleme yapılması gerektiğini vurguluyor.