A ByteDance Research tornou open source o Lance, um modelo multimodal com 3 bilhões de parâmetros projetado para processamento de imagens e vídeos. Treinado em 128 GPUs A100, o Lance suporta compreensão, geração e edição simultâneas dentro de um único framework. Diferentemente de outros modelos que aumentam o tamanho dos parâmetros, o Lance emprega uma arquitetura de Mistura de Especialistas de fluxo duplo e codificação posicional rotativa consciente do modal para gerenciar a eficiência computacional e reduzir a interferência de sinal. Apesar de seu design leve, o Lance se destaca em testes de benchmark para geração e edição de imagens e vídeos, demonstrando uma abordagem econômica para equilibrar a capacidade de geração com a compreensão semântica. Esse desenvolvimento destaca a estratégia inovadora da ByteDance em IA multimodal, oferecendo uma solução de baixo custo computacional que mantém alto desempenho.