Jina AI präsentiert v5-omni für Quad-Modale Suche

Jina AI hat jina-embeddings-v5-omni veröffentlicht, ein Open-Source-quad-modales Vektormodell, das Text-, Bild-, Audio- und Videoabruf mit minimalem Parameteraufwand unterstützt. Die innovative Architektur des Modells ermöglicht die Integration von visuellen und Audio-Encodern, indem der nur für Text zuständige Backbone eingefroren und nur die Verbindungskomponenten feinabgestimmt werden, die lediglich 0,35 % der Gesamtparameter ausmachen. Dieser Ansatz ermöglicht es Unternehmen, auf multimodale Systeme umzusteigen, ohne bestehende Textindizes neu berechnen zu müssen, was den GPU-Speicherverbrauch um bis zu 64 % reduziert und das Training um bis zu das 3,9-fache beschleunigt. Das v5-omni-Modell mit etwa 1,57 Milliarden Parametern zeigt eine Leistung, die mit größeren Modellen wie LCO-Embedding-Omni-7B vergleichbar ist, trotz seiner kleineren Größe. Obwohl es bei Videoabrufaufgaben noch Herausforderungen gibt, bietet das Modell Unternehmen einen kosteneffizienten Weg, ihre Abruffähigkeiten über mehrere Modalitäten hinweg zu erweitern, indem es einen starken Text-Backbone nutzt, um zusätzliche Kosten zu minimieren.