Microsoft, ekran üzerindeki kesin tıklama konumlarını belirleme yeteneğini artırmak için tasarlanmış Phi-Ground model ailesini açık kaynak yaptı. 4 milyar parametreli model, talimat planlaması için büyük bir modelle birleştirildiğinde, Showdown kıyaslamasında tıklama doğruluğunda OpenAI'nin Operator ve Claude Computer Use modellerini geride bıraktı. ScreenSpot-Pro dahil olmak üzere beş değerlendirmede 10 milyar parametrenin altındaki modeller arasında birinci sırada yer aldı. Geliştirme ekibi, modeli 40 milyondan fazla veri noktası kullanarak doğruladı ve geleneksel eğitim tekniklerinin ölçeklendirmede başarısız olduğunu keşfetti. Bunun yerine, koordinatları sıradan sayılar olarak çıktı vererek ve metinsel talimatları giriş dizisinde görüntülerden önce yerleştirerek başarı sağladılar. Ayrıca, genellikle dil görevlerinde kullanılan pekiştirmeli öğrenme, görsel görevlerde de etkili oldu ve karşıt eğitim yoluyla doğruluğu artırdı. Ekip, yüksek çözünürlüklü ekranlarla ilgili zorlukları, ekran görüntülerini küçülterek ve eğitim sırasında büyük beyaz bir tuval kullanarak ele aldı ve Photoshop gibi karmaşık yazılımlarda performansı iyileştirdi.