ModernBERT, destilliert aus DeepSeek-V3-Base, wurde für die Klassifizierung eines 52K/212K-Teilsatzes von arXiv-Papieren optimiert. Durch die Nutzung von vLLM-gestützter Inferenz mit Konfidenzschwellen zwischen 0,70 und 0,71 setzt dieser Ansatz einen neuen Standard für die Hochdurchsatz-Indizierung von Datensätzen und verbessert die Effizienz und Genauigkeit bei der Verarbeitung großer Mengen akademischer Daten.