Microsoft a rendu open source sa famille de modèles Phi-Ground, conçue pour améliorer la capacité de l'IA à déterminer des emplacements de clic précis sur un écran. Le modèle de 4 milliards de paramètres, combiné à un grand modèle pour la planification des instructions, a surpassé Operator d'OpenAI et Claude Computer Use en précision de clic lors du benchmark Showdown. Il s'est classé premier parmi les modèles de moins de 10 milliards de paramètres sur cinq évaluations, y compris ScreenSpot-Pro. L'équipe de développement a validé le modèle en utilisant plus de 40 millions de points de données, découvrant que les techniques d'entraînement traditionnelles échouaient à grande échelle. Ils ont plutôt réussi en produisant des coordonnées sous forme de nombres ordinaires et en plaçant les instructions textuelles avant les images dans la séquence d'entrée. De plus, l'apprentissage par renforcement, généralement utilisé pour les tâches linguistiques, s'est avéré efficace pour les tâches visuelles, améliorant la précision grâce à un entraînement contrastif. L'équipe a également relevé les défis posés par les écrans haute résolution en réduisant la taille des captures d'écran et en utilisant une grande toile blanche pendant l'entraînement, améliorant ainsi les performances sur des logiciels complexes comme Photoshop.