Microsoft has open-sourced its Lens series, a 3.8 billion parameter text-to-image foundational model, which boasts exceptional training efficiency and performance. The Lens model requires only 19.3% of the computational resources compared to Alibaba's Z-Image, thanks to dual optimizations in data and architecture. The training dataset, Lens-800M, includes 800 million image-text pairs generated by GPT-4.1, with an average prompt length of 109 words.
The Lens series features three weight variants for different deployment needs, with the Lens-Turbo variant achieving ultra-fast inference, generating 1024x1024 images in just 0.84 seconds. The model supports resolutions up to 1440x1440 and various aspect ratios. Microsoft has made the model weights available on Hugging Face under the MIT license, with inference code hosted on GitHub, facilitating access for developers and researchers.
Microsoft Open-Sources Lens, a 3.8B Parameter Text-to-Image Model
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
