마이크로소프트는 화면에서 정확한 클릭 위치를 결정하는 AI의 능력을 향상시키기 위해 설계된 Phi-Ground 모델 패밀리를 오픈소스로 공개했습니다. 40억 개의 파라미터를 가진 이 모델은 지시 계획을 위한 대형 모델과 결합했을 때, Showdown 벤치마크에서 OpenAI의 Operator와 Claude Computer Use를 클릭 정확도 면에서 능가했습니다. 또한 ScreenSpot-Pro를 포함한 다섯 가지 평가에서 100억 파라미터 미만 모델 중 1위를 차지했습니다. 개발팀은 4천만 개 이상의 데이터 포인트를 사용해 모델을 검증했으며, 기존의 훈련 기법이 대규모에서는 실패한다는 사실을 발견했습니다. 대신 좌표를 일반 숫자로 출력하고 입력 시퀀스에서 이미지 앞에 텍스트 지시문을 배치하는 방법으로 성공을 거두었습니다. 또한 주로 언어 작업에 사용되는 강화 학습이 시각 작업에도 효과적임을 입증했으며, 대조 학습을 통해 정확도를 향상시켰습니다. 개발팀은 고해상도 화면 문제도 해결했는데, 스크린샷을 축소하고 훈련 시 큰 흰색 캔버스를 사용하여 포토샵과 같은 복잡한 소프트웨어에서의 성능을 개선했습니다.