Компания по обеспечению безопасности ИИ Plurai представила фреймворк BARRED, который повышает безопасность ИИ за счёт генерации синтетических обучающих данных для индивидуальных ограничений контента. Этот фреймворк позволяет модели Qwen2.5-3B с 3 миллиардами параметров превосходить модель OSS-Safeguard-20B от OpenAI с 20 миллиардами параметров в таких задачах, как стратегия диалога, проверка вывода агента и соблюдение медицинских норм. Фреймворк BARRED разбивает задачи на несколько измерений и использует процесс "асимметричных дебатов" для уточнения образцов на грани, что значительно повышает точность. Код для оценки и набор данных доступны на GitHub и Hugging Face.