Jina AI ha lanzado jina-embeddings-v5-omni, un modelo vectorial cuádruple modal de código abierto que soporta la recuperación de texto, imágenes, audio y video con un costo mínimo de parámetros. La arquitectura innovadora del modelo permite la integración de codificadores visuales y de audio al congelar la columna vertebral solo de texto y ajustar finamente solo los componentes de conexión, que constituyen solo el 0,35% del total de parámetros. Este enfoque permite a las empresas actualizar a sistemas multimodales sin recalcular los índices de texto existentes, reduciendo significativamente el uso de memoria GPU hasta en un 64% y acelerando el entrenamiento hasta 3,9 veces. El modelo v5-omni, con aproximadamente 1.57 mil millones de parámetros, demuestra un rendimiento comparable al de modelos más grandes como LCO-Embedding-Omni-7B, a pesar de su tamaño más pequeño. Aunque aún enfrenta desafíos en tareas de recuperación de video, el modelo ofrece un camino rentable para que las empresas amplíen sus capacidades de recuperación a través de múltiples modalidades, aprovechando una sólida columna vertebral de texto para minimizar costos adicionales.