Datalab ha lanzado Surya OCR 2, un nuevo modelo OCR multilingüe que alcanza un 83,3 % de precisión en el olmOCR-bench, estableciendo un nuevo estándar para modelos con menos de 3 mil millones de parámetros. A pesar de tener solo 650 millones de parámetros, Surya OCR 2 supera a su predecesor, que tenía 9 mil millones de parámetros, al lograr un equilibrio óptimo de Pareto entre la cantidad de parámetros y la precisión. El modelo integra análisis de diseño, reconocimiento de texto y detección de tablas en un solo modelo de visión y lenguaje, mientras mantiene modelos ligeros separados para la detección de líneas de texto y la detección de errores OCR.
Surya OCR 2 soporta 91 idiomas con una tasa de aprobación general del 87,2 % y cuenta con optimizaciones para documentos dañados y texto manuscrito. Ofrece una alta eficiencia de despliegue, alcanzando 5,35 páginas por segundo en GPUs NVIDIA y soportando inferencia local en dispositivos Apple M1. El modelo es de código abierto bajo la licencia Apache 2.0, con pesos disponibles bajo la licencia OpenRAIL-M. Datalab también presentó una API de pago para el modelo mejorado Chandra 2 de 4 mil millones de parámetros.
Surya OCR 2 establece un nuevo récord con un 83,3% de precisión y 650 millones de parámetros
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
