Surya OCR 2: 83,3% de precisão com 650M parâmetros

A Datalab lançou o Surya OCR 2, um novo modelo OCR multilíngue que alcança 83,3% de precisão no olmOCR-bench, estabelecendo um novo padrão para modelos com menos de 3 bilhões de parâmetros. Apesar de ter apenas 650 milhões de parâmetros, o Surya OCR 2 supera seu antecessor, que tinha 9 bilhões de parâmetros, ao alcançar um equilíbrio Pareto ótimo entre a contagem de parâmetros e a precisão. O modelo integra análise de layout, reconhecimento de texto e detecção de tabelas em um único modelo de visão e linguagem, mantendo modelos leves separados para detecção de linhas de texto e detecção de erros de OCR. O Surya OCR 2 suporta 91 idiomas com uma taxa geral de aprovação de 87,2% e apresenta otimizações para documentos danificados e texto manuscrito. Oferece alta eficiência de implantação, alcançando 5,35 páginas por segundo em GPUs NVIDIA e suportando inferência local em dispositivos Apple M1. O modelo é de código aberto sob a licença Apache 2.0, com pesos disponíveis sob a licença OpenRAIL-M. A Datalab também lançou uma API paga para o modelo aprimorado Chandra 2, com 4 bilhões de parâmetros.