Microsoft a présenté Fara-7B, un petit modèle de langage de 7 milliards de paramètres conçu pour l'automatisation des tâches informatiques. Utilisant une architecture de décodeur multimodal, Fara-7B traite des images de captures d'écran et du contexte textuel pour prédire des actions opérationnelles et des chaînes de pensée. Basé sur Qwen 2.5-VL (7B), le modèle supporte une longueur de contexte de 128k et a été entraîné sur 64 GPU H100 pendant 2,5 jours. Distribué sous licence MIT, il peut exécuter des tâches telles que la réservation de restaurants et la planification de voyages en interprétant les entrées du navigateur et en prédisant les actions. Fara-7B intègre des mesures de sécurité, incluant des méthodes post-entraînement et la reconnaissance de points clés, pour éviter les violations de politique et interrompre les opérations à des moments critiques, comme lors de la saisie de données personnelles. Le modèle est disponible pour déploiement via GitHub, vllm et les outils fara-cli, facilitant ainsi l'automatisation des tâches basées sur le web.