マイクロソフトは、画面上の正確なクリック位置を特定するAIの能力を向上させることを目的としたPhi-Groundモデルファミリーをオープンソース化しました。40億パラメータのこのモデルは、指示計画用の大規模モデルと組み合わせることで、Showdownベンチマークにおけるクリック精度でOpenAIのOperatorやClaude Computer Useを上回りました。ScreenSpot-Proを含む5つの評価で、100億パラメータ未満のモデルの中で1位にランクされました。
開発チームは4,000万以上のデータポイントを用いてモデルを検証し、従来のトレーニング手法が大規模では機能しないことを発見しました。代わりに、座標を通常の数値として出力し、入力シーケンスで画像の前にテキスト指示を配置することで成功を収めました。さらに、通常は言語タスクに使用される強化学習が視覚タスクにも効果的であり、対照的なトレーニングを通じて精度を向上させました。チームはまた、高解像度スクリーンの課題に対処するために、スクリーンショットを縮小し、トレーニング時に大きな白いキャンバスを使用することで、Photoshopのような複雑なソフトウェアでの性能を向上させました。
マイクロソフト、クリック精度で競合を凌駕するPhi-Groundモデルをオープンソース化
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
