Stanford AI Laboratuvarı ve Berkeley Sky Computing Laboratuvarı, NVIDIA ile iş birliği içinde, AI programlama ajanlarının doğruluğunu artırmak için LLM-as-a-Verifier adlı yeni bir yaklaşımı tanıttı. Bu yöntem, yalnızca bir hakemin nihai puanına dayanmak yerine, modelin puanlama seviyeleri arasındaki olasılık dağılımını analiz ederek birden fazla denemeden en iyi çözümü seçme zorluğunu ele alıyor. Verifier ayrıca görevleri üç boyutta değerlendiriyor: görev gereksinimlerinin karşılanması, çıktı formatının doğruluğu ve hata sinyali varlığı. Deneylerde, Verifier üstün performans sergileyerek tek çalıştırmada %74,7 doğruluk elde etti; bu, geleneksel yöntemlerin %57,0 doğruluğuna kıyasla önemli bir artıştı. 16 tekrarın ardından doğruluk %77,4'e yükseldi ve hakemin %70,2'sini geçti. Verifier ayrıca geleneksel hakemlerde yaygın olan çözüm karşılaştırmalarındaki eşitlikleri ortadan kaldırdı. Terminal-Bench 2 ve SWE-Bench Verified üzerindeki pratik uygulamalarda başarı oranlarında önemli iyileşmeler görüldü; Verifier, 9 Nisan'daki yayınından bu yana en üst sıralarda yer aldı. Bu çerçeve, daha geniş kullanım için açık kaynak olarak sunuldu.