O Laboratório de IA de Stanford e o Laboratório de Computação Sky de Berkeley, em colaboração com a NVIDIA, revelaram uma nova abordagem chamada LLM-as-a-Verifier para melhorar a precisão dos agentes de programação de IA. Este método aborda o desafio de selecionar a melhor solução entre várias tentativas, analisando a distribuição de probabilidade do modelo em diferentes níveis de pontuação, em vez de depender apenas da pontuação final de um avaliador. O Verificador também avalia as tarefas em três dimensões: cumprimento dos requisitos da tarefa, correção do formato de saída e presença de sinais de erro.
Em experimentos, o Verificador demonstrou desempenho superior, alcançando uma precisão de 74,7% em uma única execução, em comparação com 57,0% dos métodos tradicionais. Após 16 repetições, a precisão aumentou para 77,4%, superando os 70,2% do avaliador. O Verificador também eliminou empates nas comparações de soluções, um problema comum com avaliadores tradicionais. Aplicações práticas no Terminal-Bench 2 e SWE-Bench Verified mostraram melhorias significativas nas taxas de sucesso, com o Verificador alcançando as melhores classificações desde seu lançamento em 9 de abril. O framework foi disponibilizado como código aberto para uso mais amplo.
Stanford e Berkeley apresentam LLM como Verificador, aprimorando a precisão das tarefas de IA
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
