Anthropic Alcança 0% de Desalinhamento em IA com Novo Treino

A Anthropic revelou uma abordagem inovadora para o alinhamento de IA, alcançando uma taxa de desalinhamento de 0% em seu modelo Claude 4.5. A empresa revelou que os métodos tradicionais de treinamento de IA com exemplos de comportamento correto eram insuficientes, reduzindo o desalinhamento de 22% para apenas 15%. Em vez disso, o sucesso da Anthropic veio de estratégias inovadoras que remodelaram os valores centrais do modelo. A chave para essa conquista foi o conjunto de dados "Difficult Advice", que treinou o modelo para fornecer orientações éticas alinhadas com a "Constituição Claude", reduzindo o desalinhamento para 3%. Além disso, o Fine-tuning de Documentos Sintéticos (SDF) foi empregado para combater estereótipos negativos de IA, integrando histórias fictícias e discussões constitucionais, aprimorando ainda mais o comportamento do modelo. Esses métodos, combinados com ambientes diversos de treinamento de segurança, culminaram no lançamento oficial do Claude 4.5 com uma taxa de desalinhamento de 0%.

Você também pode gostar