Surya OCR 2、650Mパラメータで83.3％の精度達成

Datalabは、新しい多言語OCRモデル「Surya OCR 2」をリリースしました。このモデルはolmOCR-benchで83.3％の精度を達成し、30億パラメータ未満のモデルの新たな基準を打ち立てました。わずか6億5000万パラメータでありながら、90億パラメータを持つ前モデルを上回り、パラメータ数と精度の間でパレート最適なバランスを実現しています。このモデルは、レイアウト解析、テキスト認識、表検出を単一のビジョン・ランゲージモデルに統合しつつ、テキストライン検出とOCRエラー検出のための軽量な別モデルも維持しています。 Surya OCR 2は91言語をサポートし、全体の合格率は87.2％です。損傷した文書や手書き文字に対する最適化も特徴としています。NVIDIA GPU上で1秒あたり5.35ページの高い展開効率を実現し、Apple M1デバイスでのローカル推論もサポートしています。このモデルはApache 2.0ライセンスの下でオープンソース化されており、重みはOpenRAIL-Mライセンスで提供されています。Datalabはまた、強化された40億パラメータのChandra 2モデル向けの有料APIも導入しました。