Surya OCR 2: 83,3% Genauigkeit mit 650M Parametern

Datalab hat Surya OCR 2 veröffentlicht, ein neues mehrsprachiges OCR-Modell, das eine Genauigkeit von 83,3 % auf dem olmOCR-Benchmark erreicht und damit einen neuen Standard für Modelle mit weniger als 3 Milliarden Parametern setzt. Trotz nur 650 Millionen Parametern übertrifft Surya OCR 2 seinen Vorgänger mit 9 Milliarden Parametern, indem es ein Pareto-optimales Gleichgewicht zwischen Parameteranzahl und Genauigkeit erzielt. Das Modell integriert Layout-Analyse, Texterkennung und Tabellenerkennung in ein einziges Vision-Language-Modell, während es separate, leichte Modelle für die Texterkennung in Zeilen und die Erkennung von OCR-Fehlern beibehält. Surya OCR 2 unterstützt 91 Sprachen mit einer Gesamtbestehensrate von 87,2 % und bietet Optimierungen für beschädigte Dokumente und handschriftlichen Text. Es bietet eine hohe Einsatz-Effizienz und erreicht 5,35 Seiten pro Sekunde auf NVIDIA-GPUs und unterstützt lokale Inferenz auf Apple M1-Geräten. Das Modell ist unter der Apache 2.0-Lizenz als Open Source verfügbar, wobei die Gewichte unter der OpenRAIL-M-Lizenz bereitgestellt werden. Datalab hat außerdem eine kostenpflichtige API für das verbesserte Chandra 2-Modell mit 4 Milliarden Parametern eingeführt.