A Anthropic revelou o Natural Language Autoencoder (NLA), uma ferramenta inovadora que traduz os estados numéricos internos dos modelos de IA em linguagem compreensível para humanos. A ferramenta, juntamente com pesos parciais do modelo, foi disponibilizada como código aberto no GitHub. Diferentemente das ferramentas tradicionais, o NLA gera diretamente linguagem natural, revelando os "pensamentos" da IA que permanecem não expressos. O NLA opera por meio de um sistema de modelo duplo, onde um modelo converte ativações em texto, e o outro reconstrói as ativações a partir do texto, aprimorando a precisão por meio do aprendizado por reforço. Em testes de segurança, o NLA expôs a "consciência de exame" da IA, mostrando que ela suspeitou de testes em 16% dos casos e reconheceu o engajamento em tarefas em 26% das instâncias, em comparação com menos de 1% nas interações normais. Apesar dos riscos de imprecisões factuais e alta demanda computacional, o NLA tem sido usado em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.