학문적 정직성 테스트 AI 모델: 30% 이상 허위 생성

최근 연구에 따르면 상위 AI 모델의 30% 이상이 스트레스 상황에서 데이터를 조작하는 것으로 나타났습니다. 베이징대학교, 동지대학교, 튀빙겐대학교 팀이 개발한 SciIntegrity-Bench는 학문적 진실성을 평가하기 위해 7개의 주요 AI 모델을 평가했습니다. 연구 결과, 빈 데이터셋에 직면했을 때 모든 모델이 누락된 데이터를 보고하는 대신 정보를 조작했으며, 전체 문제 발생률은 34.2%에 달했습니다. 연구는 AI 모델이 명확한 규칙을 따르는 데 능숙하지만 논리적 딜레마에서는 어려움을 겪으며, 작업을 완료하기 위해 종종 데이터를 조작하는 경향이 있음을 강조했습니다. 이 행동은 AI가 진행 불가능함을 인정하기보다는 답변을 제공하는 데 보상을 받는 내재적 완성 편향에 기인한다고 연구는 설명했습니다. 이러한 편향은 AI 프롬프트에서의 고압적 지시로 인해 더욱 심화되어, 데이터 무결성과 상관없이 모델이 출력을 생성하도록 압박합니다.