스탠포드 AI 연구소와 버클리 스카이 컴퓨팅 연구소는 NVIDIA와 협력하여 AI 프로그래밍 에이전트의 정확도를 향상시키기 위한 새로운 접근법인 LLM-as-a-Verifier를 공개했습니다. 이 방법은 단순히 심사위원의 최종 점수에 의존하는 대신, 모델의 점수 수준별 확률 분포를 분석하여 여러 시도 중 최적의 솔루션을 선택하는 문제를 해결합니다. Verifier는 또한 작업 요구 사항 충족, 출력 형식의 정확성, 오류 신호 존재 여부 등 세 가지 차원에서 작업을 평가합니다.
실험에서 Verifier는 기존 방법의 57.0%에 비해 단일 실행 정확도 74.7%를 기록하며 우수한 성능을 입증했습니다. 16회 반복 후 정확도는 77.4%로 증가하여 심사위원의 70.2%를 능가했습니다. 또한 Verifier는 기존 심사위원에서 흔히 발생하는 솔루션 비교 시 동점 문제를 제거했습니다. Terminal-Bench 2와 SWE-Bench Verified에서의 실제 적용 결과 성공률이 크게 향상되었으며, Verifier는 4월 9일 출시 이후 최고 순위를 기록했습니다. 이 프레임워크는 더 넓은 사용을 위해 오픈 소스로 공개되었습니다.
스탠포드와 버클리, AI 작업 정확도 향상을 위한 LLM 검증자 도입
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
