ByteDance Research a rendu open source Lance, un modèle multimodal de 3 milliards de paramètres conçu pour le traitement d'images et de vidéos. Entraîné sur 128 GPU A100, Lance prend en charge la compréhension, la génération et l'édition simultanées au sein d'un cadre unique. Contrairement à d'autres modèles qui augmentent la taille des paramètres, Lance utilise une architecture Mixture-of-Experts à double flux et un encodage positionnel rotatif conscient du modal pour gérer l'efficacité computationnelle et réduire les interférences de signal. Malgré sa conception légère, Lance excelle dans les tests de référence pour la génération et l'édition d'images et de vidéos, démontrant une approche rentable qui équilibre la capacité de génération avec la compréhension sémantique. Ce développement met en lumière la stratégie innovante de ByteDance en IA multimodale, offrant une solution à faible consommation de calcul tout en maintenant une haute performance.