Le laboratoire d'IA de Stanford et le laboratoire Berkeley Sky Computing, en collaboration avec NVIDIA, ont dévoilé une nouvelle approche appelée LLM-as-a-Verifier pour améliorer la précision des agents de programmation IA. Cette méthode répond au défi de sélectionner la meilleure solution parmi plusieurs tentatives en analysant la distribution de probabilité du modèle à travers différents niveaux de notation, plutôt que de se fier uniquement au score final d'un juge. Le Vérificateur évalue également les tâches selon trois dimensions : la satisfaction des exigences de la tâche, la correction du format de sortie et la présence de signaux d'erreur.
Lors des expériences, le Vérificateur a démontré une performance supérieure, atteignant une précision de 74,7 % en une seule exécution contre 57,0 % pour les méthodes traditionnelles. Après 16 répétitions, la précision a augmenté à 77,4 %, dépassant les 70,2 % du juge. Le Vérificateur a également éliminé les égalités dans les comparaisons de solutions, un problème courant avec les juges traditionnels. Les applications pratiques sur Terminal-Bench 2 et SWE-Bench Verified ont montré des améliorations significatives des taux de réussite, le Vérificateur obtenant les meilleures positions depuis sa sortie le 9 avril. Le cadre a été rendu open source pour une utilisation plus large.
Stanford et Berkeley lancent LLM en tant que vérificateur, améliorant la précision des tâches d'IA
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
