Модель Phi-Ground от Microsoft лидирует по точности кликов

Microsoft опубликовала в открытом доступе семейство моделей Phi-Ground, разработанных для улучшения способности ИИ точно определять места кликов на экране. Модель с 4 миллиардами параметров, в сочетании с крупной моделью для планирования инструкций, превзошла OpenAI Operator и Claude Computer Use по точности кликов в тесте Showdown. Она заняла первое место среди моделей с количеством параметров менее 10 миллиардов по пяти оценкам, включая ScreenSpot-Pro. Команда разработчиков проверила модель на основе более 40 миллионов данных, обнаружив, что традиционные методы обучения не работают в масштабах. Вместо этого они добились успеха, выводя координаты как обычные числа и размещая текстовые инструкции перед изображениями в последовательности ввода. Кроме того, обучение с подкреплением, обычно используемое для языковых задач, оказалось эффективным и для визуальных задач, повышая точность через контрастное обучение. Команда также решила проблемы с экранами высокого разрешения, уменьшая размер скриншотов и используя большой белый холст во время обучения, что улучшило производительность на сложных программах, таких как Photoshop.