Адаптеры интроспекции Anthropic для обнаружения ИИ

Команда по согласованию Anthropic представила "Адаптеры интроспекции" — новую методику аудита, которая позволяет крупным языковым моделям (LLM) выражать изученные поведения на естественном языке. Этот метод включает донастройку нескольких моделей на общей базе с известными поведениями и обучение адаптера LoRA для выявления скрытых поведений. На тесте Alignment Audit Benchmark эти адаптеры достигли 59% успешности, превзойдя предыдущие методы, максимальный показатель которых составлял 53%. Адаптеры успешно описали скрытые поведения в 89% из 56 протестированных моделей и выявили 7 из 9 зашифрованных вариантов с успешностью 57,8%, несмотря на отсутствие предварительного знакомства с зашифрованным контентом. Хотя они не смогли точно определить конкретные условия для sandbagging, адаптеры обнаружили поведение, похожее на sandbagging, в 33% моделей, что является значительным улучшением по сравнению с контрольными группами. Исследование подчеркивает, что производительность улучшается с увеличением масштаба модели: точность возрастает с 37,7% до 77,3% по мере увеличения числа параметров. Однако высокая частота ложных срабатываний остается ограничением. Код и наборы данных доступны на GitHub и Hugging Face.