Anthropic выпустила новую систему согласования ИИ

Anthropic выпустила обновленную версию своей "Конституции Клода" — всестороннего 80-страничного документа, в котором изложена структура согласования ИИ компании. Эта новая конституция, доступная по лицензии Creative Commons CC0 1.0, предназначена служить "высшим авторитетом" для обучения моделей ИИ. Она направлена на улучшение обобщения ИИ на новые сценарии за счет объяснения обоснования своих принципов, а не просто их перечисления. Документ ставит в приоритет широкую безопасность и этику, соблюдение руководящих принципов и искреннюю помощь. В нем содержатся "жесткие ограничения", такие как запрет на существенную помощь в разработке биологического оружия, а также введены главы о добродетелях, психологической безопасности и самосознании модели. Anthropic подчеркивает прозрачность и непрерывную итерацию в своем подходе к согласованию ИИ.