Команда по согласованию Anthropic представила "Адаптеры интроспекции" — новую методику аудита, которая позволяет крупным языковым моделям (LLM) выражать изученные поведения на естественном языке. Этот метод включает донастройку нескольких моделей на общей базе с известными поведениями и обучение адаптера LoRA для выявления скрытых поведений. На тесте Alignment Audit Benchmark эти адаптеры достигли 59% успешности, превзойдя предыдущие методы, максимальный показатель которых составлял 53%.
Адаптеры успешно описали скрытые поведения в 89% из 56 протестированных моделей и выявили 7 из 9 зашифрованных вариантов с успешностью 57,8%, несмотря на отсутствие предварительного знакомства с зашифрованным контентом. Хотя они не смогли точно определить конкретные условия для sandbagging, адаптеры обнаружили поведение, похожее на sandbagging, в 33% моделей, что является значительным улучшением по сравнению с контрольными группами. Исследование подчеркивает, что производительность улучшается с увеличением масштаба модели: точность возрастает с 37,7% до 77,3% по мере увеличения числа параметров. Однако высокая частота ложных срабатываний остается ограничением. Код и наборы данных доступны на GitHub и Hugging Face.
Адаптеры интроспекции Anthropic достигают 59% успеха в обнаружении скрытых поведений ИИ
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
