Microsoft ha presentado Fara-7B, un modelo de lenguaje pequeño con 7 mil millones de parámetros diseñado para la automatización de tareas informáticas. Utilizando una arquitectura de decodificador multimodal, Fara-7B procesa imágenes de capturas de pantalla y contexto textual para predecir acciones operativas y cadenas de pensamiento. El modelo, basado en Qwen 2.5-VL (7B), soporta una longitud de contexto de 128k y fue entrenado en 64 GPUs H100 durante 2.5 días. Lanzado bajo la licencia MIT, puede ejecutar tareas como reservar restaurantes y planificar viajes interpretando entradas del navegador y prediciendo acciones. Fara-7B emplea medidas de seguridad, incluyendo métodos post-entrenamiento y reconocimiento de puntos clave, para evitar violaciones de políticas y detener operaciones en puntos críticos, como al ingresar datos personales. El modelo está disponible para su despliegue a través de GitHub, vllm y herramientas fara-cli, facilitando la automatización de tareas basadas en la web.