Microsoft hat Fara-7B vorgestellt, ein kleines Sprachmodell mit 7 Milliarden Parametern, das speziell für die Automatisierung von Computeraufgaben entwickelt wurde. Mit einer multimodalen Decoder-Architektur verarbeitet Fara-7B Screenshot-Bilder und textuelle Kontexte, um operative Aktionen und Gedankengänge vorherzusagen. Das Modell basiert auf Qwen 2.5-VL (7B), unterstützt eine Kontextlänge von 128k und wurde über 2,5 Tage auf 64 H100-GPUs trainiert. Es wird unter der MIT-Lizenz veröffentlicht und kann Aufgaben wie das Buchen von Restaurants und die Reiseplanung ausführen, indem es Browser-Eingaben interpretiert und Aktionen vorhersagt. Fara-7B verwendet Sicherheitsmaßnahmen, darunter Nachtrainingsmethoden und Schlüsselpunkt-Erkennung, um Richtlinienverstöße zu vermeiden und Operationen an kritischen Punkten, wie beim Eingeben persönlicher Daten, zu stoppen. Das Modell ist über GitHub, vllm und die fara-cli-Tools verfügbar und erleichtert die Automatisierung webbasierter Aufgaben.