ModernBERT, distillé à partir de DeepSeek-V3-Base, a été optimisé pour classifier un sous-ensemble de 52 000/212 000 articles d'arXiv. En utilisant une inférence soutenue par vLLM avec des seuils de confiance compris entre 0,70 et 0,71, cette approche établit une nouvelle norme pour l'indexation à haut débit des ensembles de données, améliorant l'efficacité et la précision dans le traitement de grands volumes de données académiques.