바이트댄스 리서치는 이미지 및 비디오 처리를 위해 설계된 30억 개 매개변수의 멀티모달 모델인 Lance를 오픈소스로 공개했습니다. 128개의 A100 GPU에서 훈련된 Lance는 단일 프레임워크 내에서 이해, 생성 및 편집을 동시에 지원합니다. 매개변수 크기를 확장하는 다른 모델과 달리, Lance는 계산 효율성을 관리하고 신호 간섭을 줄이기 위해 이중 스트림 Mixture-of-Experts 아키텍처와 모달 인지 회전 위치 인코딩을 사용합니다. 경량 설계에도 불구하고 Lance는 이미지 및 비디오 생성과 편집에 대한 벤치마크 테스트에서 뛰어난 성능을 보여주며, 생성 능력과 의미 이해의 균형을 맞추는 비용 효율적인 접근 방식을 입증했습니다. 이 개발은 바이트댄스의 멀티모달 AI 분야에서의 혁신적인 전략을 강조하며, 높은 성능을 유지하면서도 저연산 솔루션을 제공합니다.