AI 보안 회사 플루라이(Plurai)는 맞춤형 콘텐츠 가드레일을 위한 합성 학습 데이터를 생성하여 AI 안전성을 향상시키는 BARRED 프레임워크를 공개했습니다. 이 프레임워크는 30억 개의 파라미터를 가진 Qwen2.5-3B 모델이 200억 개의 파라미터를 가진 OpenAI의 OSS-Safeguard-20B 모델을 대화 전략, 에이전트 출력 검증, 의료 준수 등의 작업에서 능가할 수 있도록 합니다. BARRED 프레임워크는 작업을 여러 차원으로 분해하고 "비대칭 토론" 과정을 사용하여 극단적인 사례 샘플을 정제함으로써 정확도를 크게 향상시킵니다. 평가 코드와 데이터셋은 GitHub와 Hugging Face에서 이용할 수 있습니다.