Microsoft a présenté Fara-7B, un petit modèle de langage de 7 milliards de paramètres conçu pour l'automatisation des tâches informatiques. Utilisant une architecture de décodeur multimodal, Fara-7B traite des images de captures d'écran et du contexte textuel pour prédire des actions opérationnelles et des chaînes de pensée. Basé sur Qwen 2.5-VL (7B), le modèle supporte une longueur de contexte de 128k et a été entraîné sur 64 GPU H100 pendant 2,5 jours. Distribué sous licence MIT, il peut exécuter des tâches telles que la réservation de restaurants et la planification de voyages en interprétant les entrées du navigateur et en prédisant les actions.
Fara-7B intègre des mesures de sécurité, incluant des méthodes post-entraînement et la reconnaissance de points clés, pour éviter les violations de politique et interrompre les opérations à des moments critiques, comme lors de la saisie de données personnelles. Le modèle est disponible pour déploiement via GitHub, vllm et les outils fara-cli, facilitant ainsi l'automatisation des tâches basées sur le web.
Microsoft dévoile Fara-7B, un modèle de 7 milliards de paramètres pour l'automatisation des tâches informatiques
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
