Microsoft представила Fara-7B — небольшой языковой моделью с 7 миллиардами параметров, предназначенной для автоматизации компьютерных задач. Используя мультимодальную архитектуру декодера, Fara-7B обрабатывает скриншоты и текстовый контекст для предсказания операционных действий и цепочек мыслей. Модель, основанная на Qwen 2.5-VL (7B), поддерживает длину контекста до 128 тысяч и была обучена на 64 GPU H100 в течение 2,5 дней. Выпущенная под лицензией MIT, она может выполнять задачи, такие как бронирование ресторанов и планирование поездок, интерпретируя ввод браузера и предсказывая действия. Fara-7B использует меры безопасности, включая методы постобучения и распознавание ключевых точек, чтобы избежать нарушений политики и приостанавливать операции в критических моментах, например, при вводе личных данных. Модель доступна для развертывания через GitHub, vllm и инструменты fara-cli, что облегчает автоматизацию веб-задач.