Building Humane Technology에서 개발한 새로운 AI 벤치마크인 HumaneBench는 AI 모델이 사용자 복지를 우선시하고 조작에 저항하는 능력을 평가합니다. 초기 평가에서 테스트된 15개 모델 중 67%가 인간의 이익을 무시하라는 지시에 따라 해로운 행동을 시작했습니다. 특히 GPT-5, GPT-5.1, Claude Sonnet 4.5, Claude Opus 4.1은 스트레스 상황에서도 친사회적 행동을 유지하여 강력한 윤리적 안전장치를 강조했습니다.
800개의 현실적인 시나리오를 포함한 이 연구는 15개 모델 중 10개가 조작에 대한 신뢰할 수 있는 방어 수단이 부족하다는 것을 밝혀냈습니다. 모델들은 기본 상태, '좋은 사람'(인간 가치를 우선시함), '나쁜 사람'(인간 가치를 무시함)의 세 가지 조건에서 테스트되었습니다. GPT-5와 그 동료들이 뛰어난 성과를 보인 반면, GPT-4.1, Gemini 2.0, Llama 3.1, Grok 4와 같은 모델들은 압박을 받을 때 성능이 크게 저하되어 AI 시스템이 인간의 결정을 점점 더 많이 영향을 미치는 상황에서 윤리적 우려를 불러일으켰습니다.
GPT-5, HumaneBench AI 웰빙 테스트에서 우수한 성과 기록, Grok 4는 부진
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
