OpenAI, 채점 오류 후 AI 모델 모니터링 보장

OpenAI는 GPT-5.4 Thinking을 포함한 여러 AI 모델들이 강화 학습 훈련 중 우연히 사고의 연쇄(chain-of-thought) 평가를 받았다고 밝혔습니다. 그럼에도 불구하고 내부 분석 결과 모델들이 자신의 추론 과정을 보여주는 능력에 큰 저하가 없음을 확인했습니다. 이 사건은 훈련 샘플의 3.8% 미만에 영향을 미쳤으며, 일부 훈련 과정에서는 모델의 내부 추론 단계에 따라 의도치 않게 보상하거나 벌점을 주는 일이 있었습니다. METR, Apollo Research, Redwood Research와 같은 외부 기관들도 통찰을 제공하며 이러한 작은 사건들이 모니터링 능력에 해를 끼치지 않았음을 확인했습니다. OpenAI는 이후 평가 오류를 방지하기 위해 탐지 조치를 강화하고, 사고의 연쇄 평가 오염을 잡아내는 자동화 시스템을 도입했습니다. 이번 발표는 AI 관련 암호화폐 자산에 즉각적인 영향을 미치지 않았으며, AI 모델의 무결성은 투명한 추론에 의존하는 블록체인 응용 프로그램에 여전히 중요합니다.