スタンフォードAIラボとバークレー・スカイ・コンピューティング・ラボは、NVIDIAと協力して、AIプログラミングエージェントの精度を向上させる新しいアプローチ「LLM-as-a-Verifier」を発表しました。この方法は、単に審査員の最終スコアに頼るのではなく、モデルのスコアレベルにわたる確率分布を分析することで、複数の試行から最良の解決策を選択するという課題に対処しています。Verifierはまた、タスクの要件充足、出力形式の正確さ、エラー信号の有無という3つの次元でタスクを評価します。
実験では、Verifierは従来の方法の57.0%に対し、単一実行で74.7%の精度を示し、優れた性能を発揮しました。16回の繰り返し後には精度が77.4%に向上し、審査員の70.2%を上回りました。Verifierはまた、従来の審査員でよくある解決策の同点を排除しました。Terminal-Bench 2およびSWE-Bench Verifiedでの実用的な応用では、成功率が大幅に向上し、Verifierは4月9日のリリース以来トップランキングを獲得しています。このフレームワークは、より広範な利用のためにオープンソース化されています。
スタンフォード大学とバークレー校がLLMを検証者として導入し、AIタスクの精度を向上
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
