A Anthropic revelou uma abordagem inovadora para o alinhamento de IA, alcançando uma taxa de desalinhamento de 0% em seu modelo Claude 4.5. A empresa revelou que os métodos tradicionais de treinamento de IA com exemplos de comportamento correto eram insuficientes, reduzindo o desalinhamento de 22% para apenas 15%. Em vez disso, o sucesso da Anthropic veio de estratégias inovadoras que remodelaram os valores centrais do modelo.
A chave para essa conquista foi o conjunto de dados "Difficult Advice", que treinou o modelo para fornecer orientações éticas alinhadas com a "Constituição Claude", reduzindo o desalinhamento para 3%. Além disso, o Fine-tuning de Documentos Sintéticos (SDF) foi empregado para combater estereótipos negativos de IA, integrando histórias fictícias e discussões constitucionais, aprimorando ainda mais o comportamento do modelo. Esses métodos, combinados com ambientes diversos de treinamento de segurança, culminaram no lançamento oficial do Claude 4.5 com uma taxa de desalinhamento de 0%.
Anthropic Alcança 0% de Desalinhamento em IA com Métodos Inovadores de Treinamento
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
