Microsofts Phi-Ground Modell übertrifft bei Klickgenauigkeit

Microsoft hat seine Phi-Ground-Modellfamilie als Open Source veröffentlicht, die darauf ausgelegt ist, die Fähigkeit von KI zu verbessern, präzise Klickpositionen auf einem Bildschirm zu bestimmen. Das Modell mit 4 Milliarden Parametern übertraf in Kombination mit einem großen Modell für die Anweisungsplanung OpenAIs Operator und Claude Computer Use in der Klickgenauigkeit beim Showdown-Benchmark. Es belegte den ersten Platz unter Modellen mit weniger als 10 Milliarden Parametern in fünf Bewertungen, darunter ScreenSpot-Pro. Das Entwicklungsteam validierte das Modell anhand von über 40 Millionen Datenpunkten und stellte fest, dass traditionelle Trainingsmethoden in großem Maßstab versagten. Stattdessen erzielten sie Erfolg, indem sie Koordinaten als gewöhnliche Zahlen ausgaben und textuelle Anweisungen vor Bildern in der Eingabesequenz platzierten. Darüber hinaus erwies sich Verstärkungslernen, das typischerweise für Sprachaufgaben verwendet wird, auch für visuelle Aufgaben als effektiv und verbesserte die Genauigkeit durch kontrastives Training. Das Team ging auch Herausforderungen mit hochauflösenden Bildschirmen an, indem es Screenshots verkleinerte und während des Trainings eine große weiße Leinwand verwendete, was die Leistung bei komplexer Software wie Photoshop verbesserte.