DeepSeek-V3-Baseから蒸留されたModernBERTは、arXiv論文の52K/212Kサブセットの分類に最適化されています。信頼度閾値を0.70から0.71の範囲で設定したvLLM支援の推論を活用することで、この手法は高スループットのデータセットインデックス作成における新たな基準を確立し、大量の学術データ処理における効率性と精度を向上させています。