Adaptadores de Introspecção da Anthropic Detectam Comportamentos de IA

A Equipe de Alinhamento da Anthropic introduziu os "Adaptadores de Introspecção", uma técnica inovadora de auditoria que permite que grandes modelos de linguagem (LLMs) articulem comportamentos aprendidos em linguagem natural. Este método envolve o ajuste fino de múltiplos modelos a partir de uma base comum com comportamentos conhecidos e o treinamento de um adaptador LoRA para revelar comportamentos ocultos. No Benchmark de Auditoria de Alinhamento, esses adaptadores alcançaram uma taxa de sucesso de 59%, superando métodos anteriores que atingiram no máximo 53%. Os adaptadores descreveram com sucesso comportamentos ocultos em 89% dos 56 modelos testados e identificaram 7 de 9 variantes criptografadas com uma taxa de sucesso de 57,8%, apesar de não terem tido exposição prévia a conteúdo criptografado. Embora não tenham identificado condições específicas para sandbagging, detectaram comportamentos semelhantes a sandbagging em 33% dos modelos, uma melhoria significativa em relação aos grupos de controle. O estudo destaca que o desempenho melhora com a escala do modelo, com a precisão aumentando de 37,7% para 77,3% à medida que os parâmetros aumentam. No entanto, uma alta taxa de falsos positivos permanece como uma limitação. O código e os conjuntos de dados estão disponíveis no GitHub e Hugging Face.