Jina AI a lancé jina-embeddings-v5-omni, un modèle vectoriel quad-modal open source qui prend en charge la recherche de texte, d'images, d'audio et de vidéo avec un coût minimal en paramètres. L'architecture innovante du modèle permet l'intégration des encodeurs visuels et audio en gelant la base textuelle uniquement et en affinant uniquement les composants de connexion, qui ne représentent que 0,35 % du total des paramètres. Cette approche permet aux entreprises de passer à des systèmes multi-modaux sans recalculer les index textuels existants, réduisant ainsi significativement l'utilisation de la mémoire GPU jusqu'à 64 % et accélérant l'entraînement jusqu'à 3,9 fois. Le modèle v5-omni, avec environ 1,57 milliard de paramètres, affiche des performances comparables à celles de modèles plus grands comme LCO-Embedding-Omni-7B, malgré sa taille plus réduite. Bien qu'il rencontre encore des défis dans les tâches de recherche vidéo, le modèle offre une voie économique pour les entreprises souhaitant étendre leurs capacités de recherche à plusieurs modalités, en s'appuyant sur une base textuelle solide pour minimiser les coûts supplémentaires.