Das Stanford AI Lab und das Berkeley Sky Computing Lab haben in Zusammenarbeit mit NVIDIA einen neuen Ansatz namens LLM-as-a-Verifier vorgestellt, um die Genauigkeit von KI-Programmieragenten zu verbessern. Diese Methode geht die Herausforderung an, die beste Lösung aus mehreren Versuchen auszuwählen, indem sie die Wahrscheinlichkeitsverteilung des Modells über verschiedene Bewertungsebenen analysiert, anstatt sich ausschließlich auf die Endbewertung eines Richters zu verlassen. Der Verifier bewertet Aufgaben zudem in drei Dimensionen: Erfüllung der Aufgabenanforderungen, Korrektheit des Ausgabeformats und Vorhandensein von Fehlersignalen.
In Experimenten zeigte der Verifier eine überlegene Leistung und erreichte eine Genauigkeit von 74,7 % bei einem einzelnen Durchlauf im Vergleich zu 57,0 % bei traditionellen Methoden. Nach 16 Wiederholungen stieg die Genauigkeit auf 77,4 % und übertraf damit die 70,2 % des Richters. Der Verifier beseitigte auch Unentschieden bei Lösungsvergleichen, ein häufiges Problem bei traditionellen Richtern. Praktische Anwendungen auf Terminal-Bench 2 und SWE-Bench Verified zeigten signifikante Verbesserungen der Erfolgsraten, wobei der Verifier seit seiner Veröffentlichung am 9. April Spitzenplätze erreichte. Das Framework wurde als Open Source veröffentlicht, um eine breitere Nutzung zu ermöglichen.
Stanford und Berkeley führen LLM als Verifizierer ein, um die Genauigkeit von KI-Aufgaben zu verbessern
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
