Stanford AI Laboratuvarı ve Berkeley Sky Computing Laboratuvarı, NVIDIA ile iş birliği içinde, AI programlama ajanlarının doğruluğunu artırmak için LLM-as-a-Verifier adlı yeni bir yaklaşımı tanıttı. Bu yöntem, yalnızca bir hakemin nihai puanına dayanmak yerine, modelin puanlama seviyeleri arasındaki olasılık dağılımını analiz ederek birden fazla denemeden en iyi çözümü seçme zorluğunu ele alıyor. Verifier ayrıca görevleri üç boyutta değerlendiriyor: görev gereksinimlerinin karşılanması, çıktı formatının doğruluğu ve hata sinyali varlığı.
Deneylerde, Verifier üstün performans sergileyerek tek çalıştırmada %74,7 doğruluk elde etti; bu, geleneksel yöntemlerin %57,0 doğruluğuna kıyasla önemli bir artıştı. 16 tekrarın ardından doğruluk %77,4'e yükseldi ve hakemin %70,2'sini geçti. Verifier ayrıca geleneksel hakemlerde yaygın olan çözüm karşılaştırmalarındaki eşitlikleri ortadan kaldırdı. Terminal-Bench 2 ve SWE-Bench Verified üzerindeki pratik uygulamalarda başarı oranlarında önemli iyileşmeler görüldü; Verifier, 9 Nisan'daki yayınından bu yana en üst sıralarda yer aldı. Bu çerçeve, daha geniş kullanım için açık kaynak olarak sunuldu.
Stanford ve Berkeley, Yapay Zeka Görev Doğruluğunu Artıran LLM-doğrulayıcıyı Tanıttı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
