Surya OCR 2 : 83,3 % de précision avec 650M paramètres

Datalab a lancé Surya OCR 2, un nouveau modèle OCR multilingue atteignant une précision de 83,3 % sur le benchmark olmOCR, établissant une nouvelle référence pour les modèles de moins de 3 milliards de paramètres. Malgré ses seuls 650 millions de paramètres, Surya OCR 2 surpasse son prédécesseur, qui comptait 9 milliards de paramètres, en atteignant un équilibre de Pareto optimal entre le nombre de paramètres et la précision. Le modèle intègre l'analyse de la mise en page, la reconnaissance de texte et la détection de tableaux dans un seul modèle vision-langage, tout en conservant des modèles légers séparés pour la détection des lignes de texte et la détection des erreurs OCR. Surya OCR 2 prend en charge 91 langues avec un taux de réussite global de 87,2 % et propose des optimisations pour les documents endommagés et le texte manuscrit. Il offre une grande efficacité de déploiement, atteignant 5,35 pages par seconde sur les GPU NVIDIA et supportant l'inférence locale sur les appareils Apple M1. Le modèle est open source sous licence Apache 2.0, avec des poids disponibles sous la licence OpenRAIL-M. Datalab a également introduit une API payante pour le modèle amélioré Chandra 2, doté de 4 milliards de paramètres.