Microsoft a rendu open source sa famille de modèles Phi-Ground, conçue pour améliorer la capacité de l'IA à déterminer des emplacements de clic précis sur un écran. Le modèle de 4 milliards de paramètres, combiné à un grand modèle pour la planification des instructions, a surpassé Operator d'OpenAI et Claude Computer Use en précision de clic lors du benchmark Showdown. Il s'est classé premier parmi les modèles de moins de 10 milliards de paramètres sur cinq évaluations, y compris ScreenSpot-Pro.
L'équipe de développement a validé le modèle en utilisant plus de 40 millions de points de données, découvrant que les techniques d'entraînement traditionnelles échouaient à grande échelle. Ils ont plutôt réussi en produisant des coordonnées sous forme de nombres ordinaires et en plaçant les instructions textuelles avant les images dans la séquence d'entrée. De plus, l'apprentissage par renforcement, généralement utilisé pour les tâches linguistiques, s'est avéré efficace pour les tâches visuelles, améliorant la précision grâce à un entraînement contrastif. L'équipe a également relevé les défis posés par les écrans haute résolution en réduisant la taille des captures d'écran et en utilisant une grande toile blanche pendant l'entraînement, améliorant ainsi les performances sur des logiciels complexes comme Photoshop.
Microsoft publie en open source le modèle Phi-Ground, surpassant ses concurrents en précision de clic
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
