Jina AI, Dört Modlu Arama için v5-omni'yi Tanıttı

Jina AI, metin, görüntü, ses ve video aramalarını minimum parametre maliyetiyle destekleyen açık kaynaklı dört modlu vektör modeli jina-embeddings-v5-omni'yu yayınladı. Modelin yenilikçi mimarisi, yalnızca metin omurgasını dondurarak ve toplam parametrelerin sadece %0,35'ini oluşturan bağlantı bileşenlerini ince ayar yaparak görsel ve ses kodlayıcılarının entegrasyonuna olanak tanıyor. Bu yaklaşım, işletmelerin mevcut metin indekslerini yeniden hesaplamadan çok modlu sistemlere yükseltme yapmasını sağlıyor, GPU bellek kullanımını %64'e kadar azaltıyor ve eğitimi 3,9 kata kadar hızlandırıyor. Yaklaşık 1,57 milyar parametreye sahip v5-omni modeli, daha küçük boyutuna rağmen LCO-Embedding-Omni-7B gibi daha büyük modellerle karşılaştırılabilir performans sergiliyor. Video arama görevlerinde hâlâ zorluklarla karşılaşsa da, model işletmelerin çoklu modlar arasında arama yeteneklerini genişletmeleri için maliyet etkin bir yol sunuyor ve güçlü bir metin omurgasından yararlanarak ek maliyetleri en aza indiriyor.