마이크로소프트는 38억 개의 파라미터를 가진 텍스트-이미지 기초 모델인 Lens 시리즈를 오픈소스로 공개했습니다. 이 모델은 뛰어난 학습 효율성과 성능을 자랑합니다. Lens 모델은 데이터와 아키텍처의 이중 최적화 덕분에 알리바바의 Z-Image에 비해 계산 자원의 19.3%만을 필요로 합니다. 학습 데이터셋인 Lens-800M은 GPT-4.1이 생성한 8억 개의 이미지-텍스트 쌍으로 구성되며, 평균 프롬프트 길이는 109단어입니다. Lens 시리즈는 다양한 배포 요구에 맞춘 세 가지 가중치 변형을 제공하며, Lens-Turbo 변형은 초고속 추론을 달성하여 1024x1024 크기의 이미지를 단 0.84초 만에 생성합니다. 이 모델은 최대 1440x1440 해상도와 다양한 종횡비를 지원합니다. 마이크로소프트는 모델 가중치를 MIT 라이선스 하에 Hugging Face에 공개했으며, 추론 코드는 GitHub에 호스팅되어 개발자와 연구자들이 쉽게 접근할 수 있도록 했습니다.