Jina AI a lancé jina-embeddings-v5-omni, un modèle vectoriel quad-modal open source qui prend en charge la recherche de texte, d'images, d'audio et de vidéo avec un coût minimal en paramètres. L'architecture innovante du modèle permet l'intégration des encodeurs visuels et audio en gelant la base textuelle uniquement et en affinant uniquement les composants de connexion, qui ne représentent que 0,35 % du total des paramètres. Cette approche permet aux entreprises de passer à des systèmes multi-modaux sans recalculer les index textuels existants, réduisant ainsi significativement l'utilisation de la mémoire GPU jusqu'à 64 % et accélérant l'entraînement jusqu'à 3,9 fois.
Le modèle v5-omni, avec environ 1,57 milliard de paramètres, affiche des performances comparables à celles de modèles plus grands comme LCO-Embedding-Omni-7B, malgré sa taille plus réduite. Bien qu'il rencontre encore des défis dans les tâches de recherche vidéo, le modèle offre une voie économique pour les entreprises souhaitant étendre leurs capacités de recherche à plusieurs modalités, en s'appuyant sur une base textuelle solide pour minimiser les coûts supplémentaires.
Jina AI lance v5-omni pour une recherche quadri-modale efficace
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
