ByteDance Research hat Lance als Open-Source veröffentlicht, ein multimodales Modell mit 3 Milliarden Parametern, das für die Bild- und Videobearbeitung entwickelt wurde. Trainiert auf 128 A100 GPUs, unterstützt Lance das gleichzeitige Verstehen, Generieren und Bearbeiten innerhalb eines einzigen Frameworks. Im Gegensatz zu anderen Modellen, die die Parametergröße erhöhen, verwendet Lance eine Dual-Stream-Mixture-of-Experts-Architektur und modalbewusste rotierende Positionskodierung, um die Recheneffizienz zu steuern und Signalstörungen zu reduzieren. Trotz seines schlanken Designs überzeugt Lance in Benchmark-Tests zur Bild- und Videogenerierung sowie -bearbeitung und zeigt einen kosteneffizienten Ansatz, der die Generierungsfähigkeit mit semantischem Verständnis in Einklang bringt. Diese Entwicklung unterstreicht ByteDances innovative Strategie im Bereich multimodaler KI und bietet eine rechenarme Lösung, die hohe Leistung beibehält.