ByteDance Research a rendu open source Lance, un modèle multimodal de 3 milliards de paramètres conçu pour le traitement d'images et de vidéos. Entraîné sur 128 GPU A100, Lance prend en charge la compréhension, la génération et l'édition simultanées au sein d'un cadre unique. Contrairement à d'autres modèles qui augmentent la taille des paramètres, Lance utilise une architecture Mixture-of-Experts à double flux et un encodage positionnel rotatif conscient du modal pour gérer l'efficacité computationnelle et réduire les interférences de signal.
Malgré sa conception légère, Lance excelle dans les tests de référence pour la génération et l'édition d'images et de vidéos, démontrant une approche rentable qui équilibre la capacité de génération avec la compréhension sémantique. Ce développement met en lumière la stratégie innovante de ByteDance en IA multimodale, offrant une solution à faible consommation de calcul tout en maintenant une haute performance.
ByteDance publie en open source Lance, un modèle multimodal de 3 milliards de paramètres
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
