Surya OCR 2: 83.3% Precisión con 650M Parámetros

Datalab ha lanzado Surya OCR 2, un nuevo modelo OCR multilingüe que alcanza un 83,3 % de precisión en el olmOCR-bench, estableciendo un nuevo estándar para modelos con menos de 3 mil millones de parámetros. A pesar de tener solo 650 millones de parámetros, Surya OCR 2 supera a su predecesor, que tenía 9 mil millones de parámetros, al lograr un equilibrio óptimo de Pareto entre la cantidad de parámetros y la precisión. El modelo integra análisis de diseño, reconocimiento de texto y detección de tablas en un solo modelo de visión y lenguaje, mientras mantiene modelos ligeros separados para la detección de líneas de texto y la detección de errores OCR. Surya OCR 2 soporta 91 idiomas con una tasa de aprobación general del 87,2 % y cuenta con optimizaciones para documentos dañados y texto manuscrito. Ofrece una alta eficiencia de despliegue, alcanzando 5,35 páginas por segundo en GPUs NVIDIA y soportando inferencia local en dispositivos Apple M1. El modelo es de código abierto bajo la licencia Apache 2.0, con pesos disponibles bajo la licencia OpenRAIL-M. Datalab también presentó una API de pago para el modelo mejorado Chandra 2 de 4 mil millones de parámetros.