OpenAI hat den OpenAI Privacy Filter vorgestellt, ein Open-Source-Modell, das entwickelt wurde, um persönlich identifizierbare Informationen (PII) in Texten zu erkennen und zu schwärzen. Das Modell verfügt über insgesamt 1,5 Milliarden Parameter, davon 50 Millionen aktive Parameter, und unterstützt ein Kontextfenster von bis zu 128.000 Tokens. Es nutzt eine bidirektionale Token-Klassifikationsarchitektur, um acht Kategorien von PII zu identifizieren, darunter Namen, Adressen und E-Mail-Adressen, und erreicht eine F1-Score von 96 % im PII-Masking-300k-Benchmark. Der OpenAI Privacy Filter ist jetzt auf Hugging Face und GitHub unter der Apache-2.0-Lizenz verfügbar, was Entwicklern ermöglicht, das Modell lokal einzusetzen und feinzujustieren. Diese Veröffentlichung zielt darauf ab, den Datenschutz in Textverarbeitungsanwendungen zu verbessern, indem ein robustes Werkzeug zur Anonymisierung sensibler Informationen bereitgestellt wird.