Anthropic добился 0% рассогласования ИИ с новым обучением

Anthropic представила революционный подход к согласованию ИИ, достигнув 0% уровня несоответствия в своей модели Claude 4.5. Компания сообщила, что традиционные методы обучения ИИ на примерах правильного поведения оказались недостаточными, снизив уровень несоответствия с 22% до всего 15%. Вместо этого успех Anthropic был достигнут благодаря инновационным стратегиям, которые изменили основные ценности модели. Ключевым элементом этого достижения стал набор данных "Трудные советы", который обучал модель предоставлять этические рекомендации в соответствии с "Конституцией Claude", снизив уровень несоответствия до 3%. Кроме того, был применён метод тонкой настройки синтетических документов (Synthetic Document Fine-tuning, SDF) для противодействия негативным стереотипам об ИИ путём интеграции вымышленных историй и обсуждений конституции, что дополнительно улучшило поведение модели. Эти методы, в сочетании с разнообразными средами обучения безопасности, привели к официальному выпуску Claude 4.5 с уровнем несоответствия 0%.

Вам также может понравиться