텐센트는 SSV 디지털 문화 연구소 및 중국과학원 정보공학연구소와 협력하여 고대 문자에 대한 AI 모델 평가를 위한 벤치마크인 Chronicles-OCR을 출시했습니다. 이 이니셔티브는 "문자의 일곱 변천"을 다루며, 2,800개의 주석이 달린 이미지와 갑골문부터 초서체까지 다양한 문자 스타일에 따른 인식 난이도를 정량화합니다. 28개의 주요 멀티모달 대형 언어 모델 평가 결과, 대부분의 모델이 고대 문자를 정확히 인식하지 못하는 심각한 어려움이 드러났습니다. GPT-5와 Gemini 2.5 Pro 같은 모델의 핵심 지표는 거의 0에 가까웠으며, 최고 성능 모델도 16.5에 불과했습니다. 바운딩 박스를 수동으로 추가했을 때 정확도는 27.1%로 최고치를 기록했으며, Gemini 3.1 Pro는 갑골문에서 14.0%의 점수를 받았습니다. 연구는 현대 AI 모델이 비표준화되고 잡음이 많은 고대 매체를 다루는 데 어려움을 겪으며, 문자 획 대신 기저질감으로 오인하는 경우가 많다는 점을 강조합니다. 또한 추론 모드를 활성화하면 오류가 수정되기보다는 증폭되어 정확도가 떨어졌습니다.