Microsoft đã công khai mã nguồn của dòng mô hình Phi-Ground, được thiết kế để nâng cao khả năng của AI trong việc xác định chính xác vị trí nhấp chuột trên màn hình. Mô hình với 4 tỷ tham số này, khi kết hợp với một mô hình lớn để lập kế hoạch hướng dẫn, đã vượt trội hơn Operator của OpenAI và Claude Computer Use về độ chính xác nhấp chuột trên chuẩn đo lường Showdown. Nó xếp hạng nhất trong số các mô hình dưới 10 tỷ tham số qua năm đánh giá, bao gồm cả ScreenSpot-Pro. Nhóm phát triển đã xác thực mô hình bằng cách sử dụng hơn 40 triệu điểm dữ liệu, phát hiện rằng các kỹ thuật huấn luyện truyền thống không hiệu quả khi mở rộng quy mô. Thay vào đó, họ đã thành công bằng cách xuất tọa độ dưới dạng các số thông thường và đặt các hướng dẫn văn bản trước hình ảnh trong chuỗi đầu vào. Ngoài ra, học tăng cường, thường được sử dụng cho các nhiệm vụ ngôn ngữ, đã chứng minh hiệu quả đối với các nhiệm vụ thị giác, nâng cao độ chính xác thông qua huấn luyện đối chiếu. Nhóm cũng đã giải quyết các thách thức với màn hình độ phân giải cao bằng cách thu nhỏ ảnh chụp màn hình và sử dụng một khung vẽ trắng lớn trong quá trình huấn luyện, cải thiện hiệu suất trên các phần mềm phức tạp như Photoshop.