Microsoft ha abierto el código de su familia de modelos Phi-Ground, diseñada para mejorar la capacidad de la IA para determinar ubicaciones precisas de clic en una pantalla. El modelo de 4 mil millones de parámetros, cuando se combina con un modelo grande para la planificación de instrucciones, superó en precisión de clics a Operator de OpenAI y a Claude Computer Use en el benchmark Showdown. Se ubicó en primer lugar entre los modelos con menos de 10 mil millones de parámetros en cinco evaluaciones, incluyendo ScreenSpot-Pro.
El equipo de desarrollo validó el modelo utilizando más de 40 millones de puntos de datos, descubriendo que las técnicas tradicionales de entrenamiento fallaban a gran escala. En cambio, encontraron éxito al generar coordenadas como números ordinarios y colocar instrucciones textuales antes de las imágenes en la secuencia de entrada. Además, el aprendizaje por refuerzo, típicamente usado para tareas de lenguaje, resultó efectivo para tareas visuales, mejorando la precisión mediante entrenamiento contrastivo. El equipo también abordó los desafíos con pantallas de alta resolución reduciendo el tamaño de las capturas de pantalla y usando un gran lienzo blanco durante el entrenamiento, mejorando el rendimiento en software complejo como Photoshop.
Microsoft libera como código abierto el modelo Phi-Ground, superando a sus competidores en precisión de clics
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
