マイクロソフトは、画面上の正確なクリック位置を特定するAIの能力を向上させることを目的としたPhi-Groundモデルファミリーをオープンソース化しました。40億パラメータのこのモデルは、指示計画用の大規模モデルと組み合わせることで、Showdownベンチマークにおけるクリック精度でOpenAIのOperatorやClaude Computer Useを上回りました。ScreenSpot-Proを含む5つの評価で、100億パラメータ未満のモデルの中で1位にランクされました。 開発チームは4,000万以上のデータポイントを用いてモデルを検証し、従来のトレーニング手法が大規模では機能しないことを発見しました。代わりに、座標を通常の数値として出力し、入力シーケンスで画像の前にテキスト指示を配置することで成功を収めました。さらに、通常は言語タスクに使用される強化学習が視覚タスクにも効果的であり、対照的なトレーニングを通じて精度を向上させました。チームはまた、高解像度スクリーンの課題に対処するために、スクリーンショットを縮小し、トレーニング時に大きな白いキャンバスを使用することで、Photoshopのような複雑なソフトウェアでの性能を向上させました。