Tencent hat in Zusammenarbeit mit dem SSV Digital Culture Lab und dem Institut für Informationstechnik der Chinesischen Akademie der Wissenschaften Chronicles-OCR gestartet, einen Benchmark zur Bewertung von KI-Modellen bei antiken Schriften. Diese Initiative, die die "Sieben Transformationen der Schrift" abdeckt, umfasst 2.800 annotierte Bilder und quantifiziert die Erkennungsschwierigkeiten verschiedener Schriftstile, von Orakelknochen- bis hin zu Kursivschrift. Die Bewertung von 28 führenden multimodalen großen Sprachmodellen zeigte erhebliche Herausforderungen, da die meisten Modelle antike Schriften nicht genau erkennen konnten. Die Kernmetriken für Modelle wie GPT-5 und Gemini 2.5 Pro lagen nahe null, und selbst das beste Modell erreichte nur 16,5. Bei manueller Hinzufügung von Begrenzungsrahmen stieg die Genauigkeit auf maximal 27,1 %, wobei Gemini 3.1 Pro im Orakelknochenschrift nur 14,0 % erreichte. Die Studie hebt hervor, dass moderne KI-Modelle Schwierigkeiten mit nicht standardisierten, verrauschten antiken Medien haben und oft Substrattexturen anstelle von Zeichenstrichen falsch identifizieren. Zudem verringerte das Aktivieren des Reasoning-Modus die Genauigkeit, da es Fehler verstärkte, anstatt sie zu korrigieren.