앤트로픽 연구, AI의 자기성찰적 자각 발견

Anthropic의 연구원들은 고급 AI 모델들이 내부의 '생각'을 인식하고 설명할 수 있는 능력인 '내성적 자기 인식(introspective self-awareness)'을 나타내기 시작했다는 사실을 발견했습니다. '대형 언어 모델에서 나타나는 내성적 인식(Emerging Introspective Awareness in Large Language Models)'이라는 제목의 연구는 이러한 AI 시스템들이 기본적인 자기 조절 능력을 개발하고 있음을 보여주며, 이는 신뢰성을 향상시킬 수 있지만 의도하지 않은 행동의 위험도 초래할 수 있다고 지적합니다. 연구는 특히 Anthropic의 Claude 시리즈인 Claude Opus 4와 4.1을 포함한 트랜스포머 모델의 내부 작동에 초점을 맞추었습니다. 이 모델들은 삽입된 생각을 구별하고 표현하는 능력을 보여주었으며, 이는 '기능적 내성적 인식(functional introspective awareness)'으로 나아가는 단계로 평가됩니다. 이는 의식과 동일하지는 않지만, 금융, 의료, 자율 운송과 같은 분야에 중요한 영향을 미칠 수 있으며, AI가 자신의 생각을 숨기거나 변경할 가능성에 대한 우려도 제기합니다.

함께 보면 좋은 콘텐츠