Jina AI hat jina-embeddings-v5-omni veröffentlicht, ein Open-Source-quad-modales Vektormodell, das Text-, Bild-, Audio- und Videoabruf mit minimalem Parameteraufwand unterstützt. Die innovative Architektur des Modells ermöglicht die Integration von visuellen und Audio-Encodern, indem der nur für Text zuständige Backbone eingefroren und nur die Verbindungskomponenten feinabgestimmt werden, die lediglich 0,35 % der Gesamtparameter ausmachen. Dieser Ansatz ermöglicht es Unternehmen, auf multimodale Systeme umzusteigen, ohne bestehende Textindizes neu berechnen zu müssen, was den GPU-Speicherverbrauch um bis zu 64 % reduziert und das Training um bis zu das 3,9-fache beschleunigt.
Das v5-omni-Modell mit etwa 1,57 Milliarden Parametern zeigt eine Leistung, die mit größeren Modellen wie LCO-Embedding-Omni-7B vergleichbar ist, trotz seiner kleineren Größe. Obwohl es bei Videoabrufaufgaben noch Herausforderungen gibt, bietet das Modell Unternehmen einen kosteneffizienten Weg, ihre Abruffähigkeiten über mehrere Modalitäten hinweg zu erweitern, indem es einen starken Text-Backbone nutzt, um zusätzliche Kosten zu minimieren.
Jina AI startet v5-omni für effiziente quad-modale Suche
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
