DeepSeek-V3-Base에서 추출된 ModernBERT는 arXiv 논문 52K/212K 하위 집합 분류에 최적화되었습니다. 0.70에서 0.71 사이의 신뢰도 임계값을 사용하는 vLLM 기반 추론을 활용하여, 이 접근법은 대량의 학술 데이터를 처리하는 효율성과 정확성을 향상시키며 고처리량 데이터셋 인덱싱의 새로운 기준을 세웠습니다.