O Laboratório de IA de Stanford e o Laboratório de Computação Sky de Berkeley, em colaboração com a NVIDIA, revelaram uma nova abordagem chamada LLM-as-a-Verifier para melhorar a precisão dos agentes de programação de IA. Este método aborda o desafio de selecionar a melhor solução entre várias tentativas, analisando a distribuição de probabilidade do modelo em diferentes níveis de pontuação, em vez de depender apenas da pontuação final de um avaliador. O Verificador também avalia as tarefas em três dimensões: cumprimento dos requisitos da tarefa, correção do formato de saída e presença de sinais de erro. Em experimentos, o Verificador demonstrou desempenho superior, alcançando uma precisão de 74,7% em uma única execução, em comparação com 57,0% dos métodos tradicionais. Após 16 repetições, a precisão aumentou para 77,4%, superando os 70,2% do avaliador. O Verificador também eliminou empates nas comparações de soluções, um problema comum com avaliadores tradicionais. Aplicações práticas no Terminal-Bench 2 e SWE-Bench Verified mostraram melhorias significativas nas taxas de sucesso, com o Verificador alcançando as melhores classificações desde seu lançamento em 9 de abril. O framework foi disponibilizado como código aberto para uso mais amplo.