Surya OCR 2 đạt 83,3% chính xác với 650 triệu tham số

Datalab đã phát hành Surya OCR 2, một mô hình OCR đa ngôn ngữ mới đạt độ chính xác 83,3% trên olmOCR-bench, thiết lập tiêu chuẩn mới cho các mô hình dưới 3 tỷ tham số. Mặc dù chỉ có 650 triệu tham số, Surya OCR 2 vượt trội hơn người tiền nhiệm với 9 tỷ tham số bằng cách đạt được sự cân bằng Pareto tối ưu giữa số lượng tham số và độ chính xác. Mô hình tích hợp phân tích bố cục, nhận dạng văn bản và phát hiện bảng vào một mô hình thị giác-ngôn ngữ duy nhất, đồng thời duy trì các mô hình nhẹ riêng biệt cho phát hiện dòng văn bản và phát hiện lỗi OCR. Surya OCR 2 hỗ trợ 91 ngôn ngữ với tỷ lệ vượt qua tổng thể là 87,2% và có các tối ưu hóa cho tài liệu bị hư hỏng và chữ viết tay. Nó cung cấp hiệu quả triển khai cao, đạt 5,35 trang mỗi giây trên GPU NVIDIA và hỗ trợ suy luận cục bộ trên thiết bị Apple M1. Mô hình được mã nguồn mở theo giấy phép Apache 2.0, với trọng số có sẵn theo giấy phép OpenRAIL-M. Datalab cũng giới thiệu API trả phí cho mô hình Chandra 2 được nâng cấp với 4 tỷ tham số.