A Microsoft tornou de código aberto sua família de modelos Phi-Ground, projetada para aprimorar a capacidade da IA de determinar locais precisos de clique na tela. O modelo de 4 bilhões de parâmetros, quando combinado com um modelo grande para planejamento de instruções, superou o Operator da OpenAI e o Claude Computer Use em precisão de clique no benchmark Showdown. Ele ficou em primeiro lugar entre os modelos com menos de 10 bilhões de parâmetros em cinco avaliações, incluindo o ScreenSpot-Pro. A equipe de desenvolvimento validou o modelo usando mais de 40 milhões de pontos de dados, descobrindo que as técnicas tradicionais de treinamento falhavam em grande escala. Em vez disso, eles obtiveram sucesso ao gerar coordenadas como números comuns e colocar instruções textuais antes das imagens na sequência de entrada. Além disso, o aprendizado por reforço, normalmente usado para tarefas de linguagem, mostrou-se eficaz para tarefas visuais, aumentando a precisão por meio do treinamento contrastivo. A equipe também enfrentou desafios com telas de alta resolução ao reduzir o tamanho das capturas de tela e usar uma grande tela branca durante o treinamento, melhorando o desempenho em softwares complexos como o Photoshop.