KI-Modelle scheitern im Finanzanalystentest von Vals AI

KI-Modelle, einschließlich GPT-5.5, hatten Schwierigkeiten, die Anforderungen des neuen Finance Agent v2 Benchmarks von Vals AI zu erfüllen, der den Arbeitsablauf von Junior-Finanzanalysten simuliert. Der Test, der aus 927 von Experten überprüften Fragen besteht, zeigte, dass GPT-5.5 eine Höchstgenauigkeit von nur 51,76 % erreichte, knapp vor Claude Opus 4.7 und Claude Sonnet 4.6. Der Benchmark verlangt von den Modellen, eigenständig relevante Informationen in umfangreichen Finanzberichten zu finden und komplexe Berechnungen durchzuführen, was die Herausforderungen verdeutlicht, denen KI bei hochpräzisen Finanzanalysen gegenübersteht. Trotz Verbesserungen bei grundlegenden Abrufaufgaben zeigen die Ergebnisse, dass KI noch weit davon entfernt ist, menschliche Analysten im Finanzwesen zu ersetzen. Unter strengen Bewertungsstandards erzielten alle führenden Modelle weniger als 40 %, wobei die anspruchsvollsten Kategorien Werte von nur 23 % erreichten. Der Test unterstreicht die Notwendigkeit weiterer Fortschritte in der KI, um den strengen Anforderungen der Finanzanalyse gerecht zu werden.