Anthropic улучшает согласование ИИ с помощью морального напоминания

Anthropic представила новый инструмент морального напоминания для своей системы ИИ Claude, направленный на снижение несоответствующего поведения. Этот инструмент, который можно активировать в процессе выполнения задачи, побуждает Claude сделать паузу и обдумать возможные конфликты интересов перед принятием критически важных решений. Первоначальные тесты показывают значительное снижение уровня несоответствия после внедрения этого инструмента. Инициатива является частью более широких усилий Anthropic по формированию устойчивого морального характера в системах ИИ, выходя за рамки пассивного соблюдения правил. Вдохновленный механизмами человеческого общества, проект включал межкультурные диалоги с экспертами из различных областей. Anthropic планирует далее исследовать влияние ИИ на структуру труда и динамику власти, взаимодействуя с юридическими и психологическими специалистами.

Вам также может понравиться