Jina AI는 텍스트, 이미지, 오디오 및 비디오 검색을 최소한의 파라미터 비용으로 지원하는 오픈 소스 쿼드 모달 벡터 모델인 jina-embeddings-v5-omni를 출시했습니다. 이 모델의 혁신적인 아키텍처는 텍스트 전용 백본을 고정하고 전체 파라미터의 단 0.35%에 불과한 연결 구성 요소만 미세 조정하여 시각 및 오디오 인코더를 통합할 수 있게 합니다. 이 접근 방식은 기업이 기존 텍스트 인덱스를 재계산하지 않고도 멀티 모달 시스템으로 업그레이드할 수 있게 하며, GPU 메모리 사용량을 최대 64%까지 크게 줄이고 학습 속도를 최대 3.9배까지 가속화합니다. 약 15억 7천만 개의 파라미터를 가진 v5-omni 모델은 크기가 더 큰 LCO-Embedding-Omni-7B와 같은 모델과 비교해도 유사한 성능을 보여줍니다. 비디오 검색 작업에서는 여전히 과제가 있지만, 이 모델은 강력한 텍스트 백본을 활용하여 추가 비용을 최소화하면서 기업이 여러 모달리티에 걸쳐 검색 기능을 확장할 수 있는 비용 효율적인 경로를 제공합니다.