El Equipo de Alineación de Anthropic ha presentado "Adaptadores de Introspección", una novedosa técnica de auditoría que permite a los grandes modelos de lenguaje (LLMs) articular comportamientos aprendidos en lenguaje natural. Este método implica el ajuste fino de múltiples modelos a partir de una base común con comportamientos conocidos y el entrenamiento de un adaptador LoRA para revelar comportamientos ocultos. En el Benchmark de Auditoría de Alineación, estos adaptadores lograron una tasa de éxito del 59%, superando los métodos anteriores que alcanzaron un máximo del 53%. Los adaptadores describieron con éxito comportamientos ocultos en el 89% de los 56 modelos probados e identificaron 7 de 9 variantes cifradas con una tasa de éxito del 57,8%, a pesar de no haber tenido exposición previa a contenido cifrado. Aunque no identificaron condiciones específicas para el "sandbagging", detectaron comportamientos similares en el 33% de los modelos, una mejora significativa en comparación con los grupos de control. El estudio destaca que el rendimiento mejora con la escala del modelo, con una precisión que aumenta del 37,7% al 77,3% a medida que aumentan los parámetros. Sin embargo, una alta tasa de falsos positivos sigue siendo una limitación. El código y los conjuntos de datos están disponibles en GitHub y Hugging Face.