Datalab, olmOCR-bench üzerinde %83,3 doğruluk oranı elde eden yeni çok dilli OCR modeli Surya OCR 2'yi piyasaya sürdü ve 3 milyar parametrenin altındaki modeller için yeni bir standart belirledi. Sadece 650 milyon parametreye sahip olmasına rağmen, Surya OCR 2, 9 milyar parametreye sahip selefinden daha iyi performans göstererek parametre sayısı ile doğruluk arasında Pareto optimal bir denge sağladı. Model, düzen analizi, metin tanıma ve tablo tespitini tek bir görsel-dil modeli içinde birleştirirken, metin satırı tespiti ve OCR hata tespiti için ayrı hafif modelleri koruyor. Surya OCR 2, 91 dili destekliyor ve genel geçme oranı %87,2. Ayrıca hasar görmüş belgeler ve el yazısı metinler için optimizasyonlar içeriyor. NVIDIA GPU'larda saniyede 5,35 sayfa işleme hızıyla yüksek dağıtım verimliliği sunuyor ve Apple M1 cihazlarında yerel çıkarımı destekliyor. Model, Apache 2.0 lisansı altında açık kaynak olarak sunuluyor ve ağırlıkları OpenRAIL-M lisansı altında mevcut. Datalab ayrıca geliştirilmiş 4 milyar parametreli Chandra 2 modeli için ücretli bir API tanıttı.