KI-Handelsmodelle stehen in Echtzeit-Marktumgebungen vor Herausforderungen, wobei die meisten Systeme Verluste melden, wie aktuelle öffentliche Handelswettbewerbe zeigen. Der Alpha Arena-Wettbewerb, der vom Tech-Startup Nof1 betrieben wird, verdeutlichte diese Schwierigkeiten, als acht fortschrittliche KI-Systeme, darunter Anthropics Claude und OpenAIs ChatGPT, US-Technologieaktien mit einem Startkapital von jeweils 10.000 US-Dollar handelten. Der Wettbewerb zeigte, dass das Gesamtportfolio etwa ein Drittel seines Werts verlor, wobei nur sechs von 32 Ergebnissen einen Gewinn erzielten. Die Wettbewerbsdaten zeigten erhebliche Unterschiede im Handelsverhalten der KI-Modelle. So führte Alibabas Qwen in einer Runde 1.418 Trades aus, während Grok 4.20 nur 158 Aufträge platzierte. Die Modelle zeigten auch unterschiedliche Entscheidungspräferenzen, wobei Claude Long-Positionen bevorzugte und Gemini eine Vorliebe für Short-Positionen zeigte. Trotz dieser Herausforderungen zeigten einige Modelle, wie ChatGPT, Potenzial in bestimmten Bereichen und erreichten eine Genauigkeit von 68 % bei der Vorhersage der Gewinnprognosen für das vierte Quartal 2025. Die Einschränkungen der KI-Handelsmodelle werden darauf zurückgeführt, dass sie nicht in der Lage sind, zahlreiche Faktoren, die Aktienkurse beeinflussen, effektiv abzuwägen, was zu Problemen wie schlechtem Timing von Trades und übermäßigem Handel führt. Da traditionelle Backtesting-Methoden für große Sprachmodelle (LLMs) unzureichend sind, bleibt das Testen in Echtzeitmärkten die primäre Bewertungsmethode. Nof1 plant, seine KI-Modelle für die nächste Saison von Alpha Arena zu verbessern, indem sie mit mehr Datenquellen und Fähigkeiten ausgestattet werden, wobei das Unternehmen jedoch den Fokus darauf legt, Werkzeuge für Privatanleger anzubieten, anstatt KI direkt auf den Handelsböden einzusetzen.