최근 공개 거래 대회에 따르면 AI 거래 모델들이 실제 시장 환경에서 어려움을 겪고 있으며, 대부분의 시스템이 손실을 보고하고 있습니다. 기술 스타트업 Nof1이 운영하는 Alpha Arena 대회는 이러한 어려움을 부각시켰는데, Anthropic의 Claude와 OpenAI의 ChatGPT를 포함한 8개의 고급 AI 시스템이 각각 1만 달러의 초기 자본으로 미국 기술주를 거래했습니다. 대회 결과 전체 포트폴리오는 약 3분의 1 손실을 입었으며, 32개의 결과 중 단 6개만이 수익을 냈습니다. 대회 데이터는 AI 모델 간 거래 행동에 큰 차이가 있음을 보여주었습니다. 예를 들어, 알리바바의 Qwen은 한 라운드에서 1,418건의 거래를 실행한 반면, Grok 4.20은 단 158건의 주문만을 했습니다. 모델들은 또한 의사결정 경향에서도 차이를 보였는데, Claude는 롱 포지션을 선호한 반면 Gemini는 숏 포지션을 선호했습니다. 이러한 어려움에도 불구하고 ChatGPT와 같은 일부 모델은 특정 분야에서 잠재력을 보여주었으며, 2025년 4분기 실적 예측 방향을 68%의 정확도로 맞추는 성과를 냈습니다. AI 거래 모델의 한계는 주가에 영향을 미치는 수많은 요인을 효과적으로 평가하지 못해 거래 타이밍 부적절과 과도한 거래 같은 문제를 초래하는 데 있습니다. 전통적인 백테스팅 방법이 대형 언어 모델(LLM)에 적합하지 않기 때문에 실제 시장 테스트가 주요 평가 방법으로 남아 있습니다. Nof1은 다음 시즌 Alpha Arena를 위해 더 많은 데이터 소스와 기능을 제공하여 AI 모델을 개선할 계획이지만, 회사는 AI를 직접 거래 현장에 배치하기보다는 소매 투자자들을 위한 도구 제공에 중점을 두고 있습니다.