마이크로소프트는 38억 개의 파라미터를 가진 텍스트-이미지 기초 모델인 Lens 시리즈를 오픈소스로 공개했습니다. 이 모델은 뛰어난 학습 효율성과 성능을 자랑합니다. Lens 모델은 데이터와 아키텍처의 이중 최적화 덕분에 알리바바의 Z-Image에 비해 계산 자원의 19.3%만을 필요로 합니다. 학습 데이터셋인 Lens-800M은 GPT-4.1이 생성한 8억 개의 이미지-텍스트 쌍으로 구성되며, 평균 프롬프트 길이는 109단어입니다.
Lens 시리즈는 다양한 배포 요구에 맞춘 세 가지 가중치 변형을 제공하며, Lens-Turbo 변형은 초고속 추론을 달성하여 1024x1024 크기의 이미지를 단 0.84초 만에 생성합니다. 이 모델은 최대 1440x1440 해상도와 다양한 종횡비를 지원합니다. 마이크로소프트는 모델 가중치를 MIT 라이선스 하에 Hugging Face에 공개했으며, 추론 코드는 GitHub에 호스팅되어 개발자와 연구자들이 쉽게 접근할 수 있도록 했습니다.
마이크로소프트, 38억 매개변수 텍스트-이미지 모델 렌즈 오픈소스 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
