A Microsoft apresentou o Fara-7B, um modelo de linguagem pequeno com 7 bilhões de parâmetros, desenvolvido para automação de tarefas em computadores. Utilizando uma arquitetura de decodificador multimodal, o Fara-7B processa imagens de capturas de tela e contexto textual para prever ações operacionais e cadeias de pensamento. O modelo, baseado no Qwen 2.5-VL (7B), suporta um comprimento de contexto de 128k e foi treinado em 64 GPUs H100 durante 2,5 dias. Lançado sob a licença MIT, ele pode executar tarefas como reservar restaurantes e planejar viagens interpretando entradas do navegador e prevendo ações. O Fara-7B emprega medidas de segurança, incluindo métodos pós-treinamento e reconhecimento de pontos-chave, para evitar violações de políticas e interromper operações em pontos críticos, como ao inserir dados pessoais. O modelo está disponível para implantação via GitHub, vllm e ferramentas fara-cli, facilitando a automação de tarefas baseadas na web.