スタンフォードAIラボとバークレー・スカイ・コンピューティング・ラボは、NVIDIAと協力して、AIプログラミングエージェントの精度を向上させる新しいアプローチ「LLM-as-a-Verifier」を発表しました。この方法は、単に審査員の最終スコアに頼るのではなく、モデルのスコアレベルにわたる確率分布を分析することで、複数の試行から最良の解決策を選択するという課題に対処しています。Verifierはまた、タスクの要件充足、出力形式の正確さ、エラー信号の有無という3つの次元でタスクを評価します。 実験では、Verifierは従来の方法の57.0%に対し、単一実行で74.7%の精度を示し、優れた性能を発揮しました。16回の繰り返し後には精度が77.4%に向上し、審査員の70.2%を上回りました。Verifierはまた、従来の審査員でよくある解決策の同点を排除しました。Terminal-Bench 2およびSWE-Bench Verifiedでの実用的な応用では、成功率が大幅に向上し、Verifierは4月9日のリリース以来トップランキングを獲得しています。このフレームワークは、より広範な利用のためにオープンソース化されています。