Лаборатория искусственного интеллекта Стэнфорда и Лаборатория облачных вычислений Беркли, в сотрудничестве с NVIDIA, представили новый подход под названием LLM-as-a-Verifier для повышения точности агентов программирования на базе ИИ. Этот метод решает проблему выбора лучшего решения из нескольких попыток путем анализа распределения вероятностей модели по уровням оценки, а не только на основе окончательной оценки судьи. Verifier также оценивает задачи по трем параметрам: выполнение требований задачи, правильность формата вывода и наличие сигналов об ошибках. В экспериментах Verifier показал превосходные результаты, достигнув точности 74,7% за один запуск по сравнению с 57,0% у традиционных методов. После 16 повторений точность возросла до 77,4%, превзойдя показатель судьи в 70,2%. Verifier также устранил ничьи при сравнении решений, что является распространенной проблемой у традиционных судей. Практическое применение на Terminal-Bench 2 и SWE-Bench Verified показало значительное улучшение показателей успеха, при этом Verifier занимает лидирующие позиции с момента своего выпуска 9 апреля. Фреймворк был открыт для широкого использования.