스탠포드 AI 연구소와 버클리 스카이 컴퓨팅 연구소는 NVIDIA와 협력하여 AI 프로그래밍 에이전트의 정확도를 향상시키기 위한 새로운 접근법인 LLM-as-a-Verifier를 공개했습니다. 이 방법은 단순히 심사위원의 최종 점수에 의존하는 대신, 모델의 점수 수준별 확률 분포를 분석하여 여러 시도 중 최적의 솔루션을 선택하는 문제를 해결합니다. Verifier는 또한 작업 요구 사항 충족, 출력 형식의 정확성, 오류 신호 존재 여부 등 세 가지 차원에서 작업을 평가합니다. 실험에서 Verifier는 기존 방법의 57.0%에 비해 단일 실행 정확도 74.7%를 기록하며 우수한 성능을 입증했습니다. 16회 반복 후 정확도는 77.4%로 증가하여 심사위원의 70.2%를 능가했습니다. 또한 Verifier는 기존 심사위원에서 흔히 발생하는 솔루션 비교 시 동점 문제를 제거했습니다. Terminal-Bench 2와 SWE-Bench Verified에서의 실제 적용 결과 성공률이 크게 향상되었으며, Verifier는 4월 9일 출시 이후 최고 순위를 기록했습니다. 이 프레임워크는 더 넓은 사용을 위해 오픈 소스로 공개되었습니다.