El Laboratorio de IA de Stanford y el Laboratorio de Computación Sky de Berkeley, en colaboración con NVIDIA, han presentado un nuevo enfoque llamado LLM-como-Verificador para mejorar la precisión de los agentes de programación de IA. Este método aborda el desafío de seleccionar la mejor solución entre múltiples intentos analizando la distribución de probabilidad del modelo a través de los niveles de puntuación, en lugar de depender únicamente de la puntuación final de un juez. El Verificador también evalúa las tareas en tres dimensiones: cumplimiento de los requisitos de la tarea, corrección del formato de salida y presencia de señales de error. En los experimentos, el Verificador demostró un rendimiento superior, alcanzando una precisión en una sola ejecución del 74,7 % en comparación con el 57,0 % de los métodos tradicionales. Después de 16 repeticiones, la precisión aumentó al 77,4 %, superando el 70,2 % del juez. El Verificador también eliminó los empates en las comparaciones de soluciones, un problema común con los jueces tradicionales. Las aplicaciones prácticas en Terminal-Bench 2 y SWE-Bench Verified mostraron mejoras significativas en las tasas de éxito, con el Verificador alcanzando las primeras posiciones desde su lanzamiento el 9 de abril. El marco ha sido liberado como código abierto para un uso más amplio.