Microsoft опубликовала в открытом доступе семейство моделей Phi-Ground, разработанных для улучшения способности ИИ точно определять места кликов на экране. Модель с 4 миллиардами параметров, в сочетании с крупной моделью для планирования инструкций, превзошла OpenAI Operator и Claude Computer Use по точности кликов в тесте Showdown. Она заняла первое место среди моделей с количеством параметров менее 10 миллиардов по пяти оценкам, включая ScreenSpot-Pro.
Команда разработчиков проверила модель на основе более 40 миллионов данных, обнаружив, что традиционные методы обучения не работают в масштабах. Вместо этого они добились успеха, выводя координаты как обычные числа и размещая текстовые инструкции перед изображениями в последовательности ввода. Кроме того, обучение с подкреплением, обычно используемое для языковых задач, оказалось эффективным и для визуальных задач, повышая точность через контрастное обучение. Команда также решила проблемы с экранами высокого разрешения, уменьшая размер скриншотов и используя большой белый холст во время обучения, что улучшило производительность на сложных программах, таких как Photoshop.
Microsoft открывает исходный код модели Phi-Ground, превосходящей конкурентов по точности кликов
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
