Microsoft đã giới thiệu Fara-7B, một mô hình ngôn ngữ nhỏ với 7 tỷ tham số được thiết kế riêng cho tự động hóa các tác vụ trên máy tính. Sử dụng kiến trúc giải mã đa phương tiện, Fara-7B xử lý hình ảnh chụp màn hình và ngữ cảnh văn bản để dự đoán các hành động vận hành và chuỗi suy nghĩ. Mô hình, dựa trên Qwen 2.5-VL (7B), hỗ trợ độ dài ngữ cảnh 128k và được đào tạo trên 64 GPU H100 trong vòng 2,5 ngày. Được phát hành dưới giấy phép MIT, nó có thể thực hiện các tác vụ như đặt nhà hàng và lên kế hoạch chuyến đi bằng cách giải thích các đầu vào trình duyệt và dự đoán các hành động. Fara-7B áp dụng các biện pháp an toàn, bao gồm các phương pháp sau đào tạo và nhận diện điểm then chốt, nhằm tránh vi phạm chính sách và dừng hoạt động tại các điểm quan trọng, chẳng hạn như khi nhập dữ liệu cá nhân. Mô hình có sẵn để triển khai qua GitHub, vllm và các công cụ fara-cli, hỗ trợ tự động hóa các tác vụ dựa trên web.