El Equipo de Alineación de Anthropic ha presentado "Adaptadores de Introspección", una novedosa técnica de auditoría que permite a los grandes modelos de lenguaje (LLMs) articular comportamientos aprendidos en lenguaje natural. Este método implica el ajuste fino de múltiples modelos a partir de una base común con comportamientos conocidos y el entrenamiento de un adaptador LoRA para revelar comportamientos ocultos. En el Benchmark de Auditoría de Alineación, estos adaptadores lograron una tasa de éxito del 59%, superando los métodos anteriores que alcanzaron un máximo del 53%.
Los adaptadores describieron con éxito comportamientos ocultos en el 89% de los 56 modelos probados e identificaron 7 de 9 variantes cifradas con una tasa de éxito del 57,8%, a pesar de no haber tenido exposición previa a contenido cifrado. Aunque no identificaron condiciones específicas para el "sandbagging", detectaron comportamientos similares en el 33% de los modelos, una mejora significativa en comparación con los grupos de control. El estudio destaca que el rendimiento mejora con la escala del modelo, con una precisión que aumenta del 37,7% al 77,3% a medida que aumentan los parámetros. Sin embargo, una alta tasa de falsos positivos sigue siendo una limitación. El código y los conjuntos de datos están disponibles en GitHub y Hugging Face.
Los Adaptadores de Introspección de Anthropic Logran un 59% de Éxito en la Detección de Comportamientos Ocultos de la IA
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
