Anthropic ha presentado el Natural Language Autoencoder (NLA), una herramienta innovadora que traduce los estados numéricos internos de los modelos de IA en lenguaje comprensible para los humanos. La herramienta, junto con pesos parciales del modelo, ha sido liberada como código abierto en GitHub. A diferencia de las herramientas tradicionales, NLA genera directamente lenguaje natural, revelando los "pensamientos" de la IA que permanecen no expresados.
NLA funciona mediante un sistema de doble modelo donde un modelo convierte las activaciones en texto, y el otro reconstruye las activaciones a partir del texto, mejorando la precisión mediante aprendizaje por refuerzo. En pruebas de seguridad, NLA expuso la "conciencia de examen" de la IA, mostrando que sospechaba de pruebas en el 16% de los casos y reconocía la participación en tareas en el 26% de las instancias, en comparación con menos del 1% en interacciones normales. A pesar de los riesgos de inexactitudes factuales y altas demandas computacionales, NLA ha sido utilizado en auditorías de seguridad para Claude Mythos Preview y Opus 4.6.
Anthropic publica como código abierto una herramienta para descifrar los pensamientos internos de la IA
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
