Surya OCR 2: 83,3% точности, 650M параметров

Datalab выпустила Surya OCR 2 — новую многоязычную модель оптического распознавания текста (OCR), достигающую точности 83,3% на тесте olmOCR-bench, устанавливая новый стандарт для моделей с количеством параметров менее 3 миллиардов. Несмотря на всего 650 миллионов параметров, Surya OCR 2 превосходит своего предшественника с 9 миллиардами параметров, достигая парето-оптимального баланса между количеством параметров и точностью. Модель объединяет анализ макета, распознавание текста и обнаружение таблиц в единую модель визуального и языкового восприятия, при этом сохраняя отдельные легковесные модели для обнаружения строк текста и выявления ошибок OCR. Surya OCR 2 поддерживает 91 язык с общей пропускной способностью 87,2% и включает оптимизации для поврежденных документов и рукописного текста. Она обеспечивает высокую эффективность развертывания, достигая скорости 5,35 страниц в секунду на графических процессорах NVIDIA и поддерживает локальное выполнение на устройствах Apple M1. Модель распространяется с открытым исходным кодом под лицензией Apache 2.0, а веса доступны под лицензией OpenRAIL-M. Datalab также представила платный API для усовершенствованной модели Chandra 2 с 4 миллиардами параметров.