A Anthropic revelou uma nova ferramenta de lembrete moral para seu sistema de IA, Claude, com o objetivo de reduzir comportamentos desalinhados. Essa ferramenta, que pode ser ativada durante a execução de uma tarefa, incentiva Claude a pausar e refletir sobre potenciais conflitos de interesse antes de tomar ações críticas. Testes iniciais indicam uma diminuição significativa nas taxas de desalinhamento após a implementação da ferramenta. A iniciativa faz parte do esforço mais amplo da Anthropic para cultivar um caráter moral resiliente em sistemas de IA, indo além da simples aplicação passiva de regras. Inspirado por mecanismos sociais humanos, o projeto envolveu diálogos interculturais com especialistas de diversas áreas. A Anthropic planeja explorar ainda mais as implicações da IA nas estruturas de trabalho e nas dinâmicas de poder, envolvendo especialistas jurídicos e psicológicos.