OpenAI는 정책 기반 콘텐츠 분류를 향상시키기 위해 설계된 오픈 소스 보안 추론 모델인 gpt-oss-safeguard를 출시했습니다. 10월 29일에 공개된 이 모델은 개발자가 추론 중에 맞춤형 정책을 구현할 수 있도록 하며, 결론과 추론 체인을 모두 제공합니다. 이 모델은 오픈 웨이트 gpt-oss를 기반으로 미세 조정되었으며, Apache 2.0 라이선스 하에 Hugging Face에서 이용할 수 있습니다. gpt-oss-safeguard 모델은 다중 정책 정확도에서 gpt-5-thinking과 gpt-oss를 능가하며, 외부 데이터셋에서의 성능은 Safety Reasoner에 근접한 것으로 알려졌습니다. 그러나 다수의 고품질 주석이 필요한 시나리오에서는 전통적인 분류기가 뛰어난 성능을 보이는 반면, 이 모델은 추론 시간과 계산 비용이 더 많이 소요되는 한계가 있습니다. ROOST는 이 이니셔티브를 지원하기 위해 모델 커뮤니티를 구축하고 기술 보고서를 발표할 계획입니다.