마이크로소프트는 화면에서 정확한 클릭 위치를 결정하는 AI의 능력을 향상시키기 위해 설계된 Phi-Ground 모델 패밀리를 오픈소스로 공개했습니다. 40억 개의 파라미터를 가진 이 모델은 지시 계획을 위한 대형 모델과 결합했을 때, Showdown 벤치마크에서 OpenAI의 Operator와 Claude Computer Use를 클릭 정확도 면에서 능가했습니다. 또한 ScreenSpot-Pro를 포함한 다섯 가지 평가에서 100억 파라미터 미만 모델 중 1위를 차지했습니다.
개발팀은 4천만 개 이상의 데이터 포인트를 사용해 모델을 검증했으며, 기존의 훈련 기법이 대규모에서는 실패한다는 사실을 발견했습니다. 대신 좌표를 일반 숫자로 출력하고 입력 시퀀스에서 이미지 앞에 텍스트 지시문을 배치하는 방법으로 성공을 거두었습니다. 또한 주로 언어 작업에 사용되는 강화 학습이 시각 작업에도 효과적임을 입증했으며, 대조 학습을 통해 정확도를 향상시켰습니다. 개발팀은 고해상도 화면 문제도 해결했는데, 스크린샷을 축소하고 훈련 시 큰 흰색 캔버스를 사용하여 포토샵과 같은 복잡한 소프트웨어에서의 성능을 개선했습니다.
마이크로소프트, 클릭 정확도에서 경쟁사 능가하는 Phi-Ground 모델 오픈소스 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
