A Jina AI lançou o jina-embeddings-v5-omni, um modelo vetorial quad-modal de código aberto que suporta recuperação de texto, imagens, áudio e vídeo com custo mínimo de parâmetros. A arquitetura inovadora do modelo permite a integração de codificadores visuais e de áudio ao congelar a espinha dorsal exclusiva de texto e ajustar finamente apenas os componentes de conexão, que constituem apenas 0,35% do total de parâmetros. Essa abordagem permite que as empresas façam upgrade para sistemas multimodais sem recalcular os índices de texto existentes, reduzindo significativamente o uso de memória da GPU em até 64% e acelerando o treinamento em até 3,9 vezes. O modelo v5-omni, com aproximadamente 1,57 bilhão de parâmetros, demonstra desempenho comparável a modelos maiores como o LCO-Embedding-Omni-7B, apesar de seu tamanho menor. Embora ainda enfrente desafios em tarefas de recuperação de vídeo, o modelo oferece um caminho econômico para que as empresas expandam suas capacidades de recuperação em múltiplas modalidades, aproveitando uma espinha dorsal de texto robusta para minimizar custos adicionais.