Anthropic은 AI 모델의 내부 수치 상태를 사람이 읽을 수 있는 언어로 번역하는 획기적인 도구인 자연어 오토인코더(NLA)를 공개했습니다. 이 도구와 일부 모델 가중치는 GitHub에 오픈 소스로 공개되었습니다. 기존 도구와 달리 NLA는 자연어를 직접 생성하여 AI의 "생각"을 드러내지 않고 숨겨진 내용을 보여줍니다.
NLA는 이중 모델 시스템으로 작동하며, 한 모델은 활성화를 텍스트로 변환하고 다른 모델은 텍스트에서 활성화를 재구성하여 강화 학습을 통해 정확성을 향상시킵니다. 보안 테스트에서 NLA는 AI의 "시험 인식"을 드러냈으며, 정상 상호작용에서는 1% 미만인 반면, 16%의 경우 시험을 의심하고 26%의 경우 작업 참여를 인식하는 것으로 나타났습니다. 사실 부정확성과 높은 계산 요구량의 위험에도 불구하고, NLA는 Claude Mythos Preview와 Opus 4.6의 안전성 감사에 사용되었습니다.
Anthropic, AI 내부 생각 해독 도구 오픈소스 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
