ByteDance Research ha hecho de código abierto Lance, un modelo multimodal de 3 mil millones de parámetros diseñado para el procesamiento de imágenes y videos. Entrenado en 128 GPUs A100, Lance soporta la comprensión, generación y edición simultáneas dentro de un único marco. A diferencia de otros modelos que aumentan el tamaño de los parámetros, Lance emplea una arquitectura de mezcla de expertos de doble flujo y codificación posicional rotatoria consciente del modo para gestionar la eficiencia computacional y reducir la interferencia de señales. A pesar de su diseño ligero, Lance sobresale en pruebas de referencia para la generación y edición de imágenes y videos, demostrando un enfoque rentable para equilibrar la capacidad de generación con la comprensión semántica. Este desarrollo destaca la estrategia innovadora de ByteDance en IA multimodal, ofreciendo una solución de bajo consumo computacional que mantiene un alto rendimiento.