OpenAI ha lanzado el modelo de inferencia de seguridad de código abierto gpt-oss-safeguard, diseñado para mejorar la clasificación de contenido basada en políticas. Lanzado el 29 de octubre, el modelo permite a los desarrolladores implementar políticas personalizadas durante la inferencia, proporcionando tanto conclusiones como cadenas de inferencia. Está afinado a partir del gpt-oss de peso abierto y está disponible bajo la licencia Apache 2.0 en Hugging Face. Se informa que el modelo gpt-oss-safeguard supera a gpt-5-thinking y gpt-oss en precisión multi-política, con un rendimiento en conjuntos de datos externos que se acerca al de Safety Reasoner. Sin embargo, enfrenta limitaciones en escenarios que requieren numerosas anotaciones de alta calidad, donde los clasificadores tradicionales sobresalen, y conlleva un mayor tiempo de inferencia y costos computacionales. ROOST planea establecer una comunidad de modelos y publicar informes técnicos para apoyar esta iniciativa.