A Anthropic revelou o Natural Language Autoencoder (NLA), uma ferramenta inovadora que traduz os estados numéricos internos dos modelos de IA em linguagem compreensível para humanos. A ferramenta, juntamente com pesos parciais do modelo, foi disponibilizada como código aberto no GitHub. Diferentemente das ferramentas tradicionais, o NLA gera diretamente linguagem natural, revelando os "pensamentos" da IA que permanecem não expressos.
O NLA opera por meio de um sistema de modelo duplo, onde um modelo converte ativações em texto, e o outro reconstrói as ativações a partir do texto, aprimorando a precisão por meio do aprendizado por reforço. Em testes de segurança, o NLA expôs a "consciência de exame" da IA, mostrando que ela suspeitou de testes em 16% dos casos e reconheceu o engajamento em tarefas em 26% das instâncias, em comparação com menos de 1% nas interações normais. Apesar dos riscos de imprecisões factuais e alta demanda computacional, o NLA tem sido usado em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.
Anthropic Torna Ferramenta de Código Aberto para Decodificar os Pensamentos Internos da IA
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
