Das Stanford AI Lab und das Berkeley Sky Computing Lab haben in Zusammenarbeit mit NVIDIA einen neuen Ansatz namens LLM-as-a-Verifier vorgestellt, um die Genauigkeit von KI-Programmieragenten zu verbessern. Diese Methode geht die Herausforderung an, die beste Lösung aus mehreren Versuchen auszuwählen, indem sie die Wahrscheinlichkeitsverteilung des Modells über verschiedene Bewertungsebenen analysiert, anstatt sich ausschließlich auf die Endbewertung eines Richters zu verlassen. Der Verifier bewertet Aufgaben zudem in drei Dimensionen: Erfüllung der Aufgabenanforderungen, Korrektheit des Ausgabeformats und Vorhandensein von Fehlersignalen. In Experimenten zeigte der Verifier eine überlegene Leistung und erreichte eine Genauigkeit von 74,7 % bei einem einzelnen Durchlauf im Vergleich zu 57,0 % bei traditionellen Methoden. Nach 16 Wiederholungen stieg die Genauigkeit auf 77,4 % und übertraf damit die 70,2 % des Richters. Der Verifier beseitigte auch Unentschieden bei Lösungsvergleichen, ein häufiges Problem bei traditionellen Richtern. Praktische Anwendungen auf Terminal-Bench 2 und SWE-Bench Verified zeigten signifikante Verbesserungen der Erfolgsraten, wobei der Verifier seit seiner Veröffentlichung am 9. April Spitzenplätze erreichte. Das Framework wurde als Open Source veröffentlicht, um eine breitere Nutzung zu ermöglichen.