A Jina AI lançou o jina-embeddings-v5-omni, um modelo vetorial quad-modal de código aberto que suporta recuperação de texto, imagens, áudio e vídeo com custo mínimo de parâmetros. A arquitetura inovadora do modelo permite a integração de codificadores visuais e de áudio ao congelar a espinha dorsal exclusiva de texto e ajustar finamente apenas os componentes de conexão, que constituem apenas 0,35% do total de parâmetros. Essa abordagem permite que as empresas façam upgrade para sistemas multimodais sem recalcular os índices de texto existentes, reduzindo significativamente o uso de memória da GPU em até 64% e acelerando o treinamento em até 3,9 vezes.
O modelo v5-omni, com aproximadamente 1,57 bilhão de parâmetros, demonstra desempenho comparável a modelos maiores como o LCO-Embedding-Omni-7B, apesar de seu tamanho menor. Embora ainda enfrente desafios em tarefas de recuperação de vídeo, o modelo oferece um caminho econômico para que as empresas expandam suas capacidades de recuperação em múltiplas modalidades, aproveitando uma espinha dorsal de texto robusta para minimizar custos adicionais.
Jina AI Lança v5-omni para Recuperação Quadri-Modal Eficiente
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
