마이크로소프트는 컴퓨터 작업 자동화를 위해 맞춤 설계된 7B 파라미터 소형 언어 모델인 Fara-7B를 발표했습니다. 멀티모달 디코더 아키텍처를 활용하는 Fara-7B는 스크린샷 이미지와 텍스트 컨텍스트를 처리하여 작업 실행 동작과 사고 과정을 예측합니다. Qwen 2.5-VL(7B)을 기반으로 한 이 모델은 128k 컨텍스트 길이를 지원하며, 64개의 H100 GPU에서 2.5일간 훈련되었습니다. MIT 라이선스 하에 공개되어, 브라우저 입력을 해석하고 동작을 예측하여 식당 예약이나 여행 계획과 같은 작업을 수행할 수 있습니다. Fara-7B는 정책 위반을 방지하고 개인 정보 입력 시와 같은 중요한 지점에서 작업을 중단하기 위해 사후 훈련 방법과 핵심 포인트 인식을 포함한 안전 조치를 적용합니다. 이 모델은 GitHub, vllm, fara-cli 도구를 통해 배포 가능하며, 웹 기반 작업 자동화를 용이하게 합니다.