A Datalab lançou o Surya OCR 2, um novo modelo OCR multilíngue que alcança 83,3% de precisão no olmOCR-bench, estabelecendo um novo padrão para modelos com menos de 3 bilhões de parâmetros. Apesar de ter apenas 650 milhões de parâmetros, o Surya OCR 2 supera seu antecessor, que tinha 9 bilhões de parâmetros, ao alcançar um equilíbrio Pareto ótimo entre a contagem de parâmetros e a precisão. O modelo integra análise de layout, reconhecimento de texto e detecção de tabelas em um único modelo de visão e linguagem, mantendo modelos leves separados para detecção de linhas de texto e detecção de erros de OCR.
O Surya OCR 2 suporta 91 idiomas com uma taxa geral de aprovação de 87,2% e apresenta otimizações para documentos danificados e texto manuscrito. Oferece alta eficiência de implantação, alcançando 5,35 páginas por segundo em GPUs NVIDIA e suportando inferência local em dispositivos Apple M1. O modelo é de código aberto sob a licença Apache 2.0, com pesos disponíveis sob a licença OpenRAIL-M. A Datalab também lançou uma API paga para o modelo aprimorado Chandra 2, com 4 bilhões de parâmetros.
Surya OCR 2 Estabelece Novo Padrão com 83,3% de Precisão e 650 Milhões de Parâmetros
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
