Baidu PaddleOCR 3.5 新ブラウザ＆文書機能リリース

百度は、オープンソースのOCRツールであるPaddleOCRのバージョン3.5をリリースし、重要な新機能を導入しました。このアップデートには、PaddleOCR.jsのリリースが含まれており、これはブラウザ推論SDKで、PP-OCRv5をWebGPUおよびWasmアクセラレーションを利用してブラウザ上で直接実行できるようにし、データプライバシーをブラウザ内に保持することを保証します。さらに、PaddleOCRはWord、Excel、PPTドキュメントをMarkdown形式にワンクリックで変換する機能もサポートしています。このアップデートはまた、Transformersバックエンドを統合しており、Hugging Faceを通じて20の主要モデルにアクセスできるようにし、PaddlePaddleの静的グラフ、動的グラフ、およびTransformersモード間のシームレスな切り替えを可能にしています。さらに、PaddleOCR-VLシリーズ、PP-StructureV3、およびPP-DocTranslationの結果をDOCX形式でエクスポートできるようになり、ドキュメント処理能力が向上しています。