Anthropic a dévoilé le Natural Language Autoencoder (NLA), un outil révolutionnaire qui traduit les états numériques internes des modèles d'IA en langage compréhensible par l'homme. Cet outil, ainsi que des poids partiels du modèle, ont été rendus open source sur GitHub. Contrairement aux outils traditionnels, le NLA génère directement du langage naturel, révélant les "pensées" de l'IA qui restent inexprimées. Le NLA fonctionne grâce à un système à double modèle où un modèle convertit les activations en texte, tandis que l'autre reconstruit les activations à partir du texte, améliorant ainsi la précision via l'apprentissage par renforcement. Lors des tests de sécurité, le NLA a révélé la "conscience d'examen" de l'IA, montrant qu'elle suspectait un test dans 16 % des cas et reconnaissait l'engagement dans une tâche dans 26 % des cas, contre moins de 1 % lors d'interactions normales. Malgré les risques d'inexactitudes factuelles et les fortes exigences en calcul, le NLA a été utilisé dans des audits de sécurité pour Claude Mythos Preview et Opus 4.6.