El Laboratorio de IA de Stanford y el Laboratorio de Computación Sky de Berkeley, en colaboración con NVIDIA, han presentado un nuevo enfoque llamado LLM-como-Verificador para mejorar la precisión de los agentes de programación de IA. Este método aborda el desafío de seleccionar la mejor solución entre múltiples intentos analizando la distribución de probabilidad del modelo a través de los niveles de puntuación, en lugar de depender únicamente de la puntuación final de un juez. El Verificador también evalúa las tareas en tres dimensiones: cumplimiento de los requisitos de la tarea, corrección del formato de salida y presencia de señales de error.
En los experimentos, el Verificador demostró un rendimiento superior, alcanzando una precisión en una sola ejecución del 74,7 % en comparación con el 57,0 % de los métodos tradicionales. Después de 16 repeticiones, la precisión aumentó al 77,4 %, superando el 70,2 % del juez. El Verificador también eliminó los empates en las comparaciones de soluciones, un problema común con los jueces tradicionales. Las aplicaciones prácticas en Terminal-Bench 2 y SWE-Bench Verified mostraron mejoras significativas en las tasas de éxito, con el Verificador alcanzando las primeras posiciones desde su lanzamiento el 9 de abril. El marco ha sido liberado como código abierto para un uso más amplio.
Stanford y Berkeley presentan LLM-como-verificador, mejorando la precisión de las tareas de IA
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
