Лаборатория искусственного интеллекта Стэнфорда и Лаборатория облачных вычислений Беркли, в сотрудничестве с NVIDIA, представили новый подход под названием LLM-as-a-Verifier для повышения точности агентов программирования на базе ИИ. Этот метод решает проблему выбора лучшего решения из нескольких попыток путем анализа распределения вероятностей модели по уровням оценки, а не только на основе окончательной оценки судьи. Verifier также оценивает задачи по трем параметрам: выполнение требований задачи, правильность формата вывода и наличие сигналов об ошибках.
В экспериментах Verifier показал превосходные результаты, достигнув точности 74,7% за один запуск по сравнению с 57,0% у традиционных методов. После 16 повторений точность возросла до 77,4%, превзойдя показатель судьи в 70,2%. Verifier также устранил ничьи при сравнении решений, что является распространенной проблемой у традиционных судей. Практическое применение на Terminal-Bench 2 и SWE-Bench Verified показало значительное улучшение показателей успеха, при этом Verifier занимает лидирующие позиции с момента своего выпуска 9 апреля. Фреймворк был открыт для широкого использования.
Стэнфорд и Беркли представляют LLM в роли проверяющего, повышая точность выполнения задач ИИ
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
