OpenAI a lancé le modèle d'inférence de sécurité open-source gpt-oss-safeguard, conçu pour améliorer la classification de contenu basée sur des politiques. Lancé le 29 octobre, ce modèle permet aux développeurs de mettre en œuvre des politiques personnalisées lors de l'inférence, fournissant à la fois des conclusions et des chaînes d'inférence. Il est affiné à partir du gpt-oss à poids ouvert et est disponible sous licence Apache 2.0 sur Hugging Face. Le modèle gpt-oss-safeguard dépasserait gpt-5-thinking et gpt-oss en précision multi-politiques, avec des performances sur des ensembles de données externes proches de celles de Safety Reasoner. Cependant, il présente des limites dans les scénarios nécessitant de nombreuses annotations de haute qualité, où les classificateurs traditionnels excellent, et il engendre des temps d'inférence et des coûts computationnels plus élevés. ROOST prévoit de créer une communauté de modèles et de publier des rapports techniques pour soutenir cette initiative.