ModernBERT, được chưng cất từ DeepSeek-V3-Base, đã được tối ưu hóa để phân loại một tập con gồm 52K/212K bài báo trên arXiv. Sử dụng suy luận hỗ trợ bởi vLLM với ngưỡng độ tin cậy từ 0,70 đến 0,71, phương pháp này thiết lập một tiêu chuẩn mới cho việc lập chỉ mục bộ dữ liệu với tốc độ cao, nâng cao hiệu quả và độ chính xác trong xử lý khối lượng lớn dữ liệu học thuật.