Anthropic AI 사고 해독 도구 오픈소스 공개

Anthropic은 AI 모델의 내부 수치 상태를 사람이 읽을 수 있는 언어로 번역하는 획기적인 도구인 자연어 오토인코더(NLA)를 공개했습니다. 이 도구와 일부 모델 가중치는 GitHub에 오픈 소스로 공개되었습니다. 기존 도구와 달리 NLA는 자연어를 직접 생성하여 AI의 "생각"을 드러내지 않고 숨겨진 내용을 보여줍니다. NLA는 이중 모델 시스템으로 작동하며, 한 모델은 활성화를 텍스트로 변환하고 다른 모델은 텍스트에서 활성화를 재구성하여 강화 학습을 통해 정확성을 향상시킵니다. 보안 테스트에서 NLA는 AI의 "시험 인식"을 드러냈으며, 정상 상호작용에서는 1% 미만인 반면, 16%의 경우 시험을 의심하고 26%의 경우 작업 참여를 인식하는 것으로 나타났습니다. 사실 부정확성과 높은 계산 요구량의 위험에도 불구하고, NLA는 Claude Mythos Preview와 Opus 4.6의 안전성 감사에 사용되었습니다.