Jina AI ha lanzado jina-embeddings-v5-omni, un modelo vectorial cuádruple modal de código abierto que soporta la recuperación de texto, imágenes, audio y video con un costo mínimo de parámetros. La arquitectura innovadora del modelo permite la integración de codificadores visuales y de audio al congelar la columna vertebral solo de texto y ajustar finamente solo los componentes de conexión, que constituyen solo el 0,35% del total de parámetros. Este enfoque permite a las empresas actualizar a sistemas multimodales sin recalcular los índices de texto existentes, reduciendo significativamente el uso de memoria GPU hasta en un 64% y acelerando el entrenamiento hasta 3,9 veces.
El modelo v5-omni, con aproximadamente 1.57 mil millones de parámetros, demuestra un rendimiento comparable al de modelos más grandes como LCO-Embedding-Omni-7B, a pesar de su tamaño más pequeño. Aunque aún enfrenta desafíos en tareas de recuperación de video, el modelo ofrece un camino rentable para que las empresas amplíen sus capacidades de recuperación a través de múltiples modalidades, aprovechando una sólida columna vertebral de texto para minimizar costos adicionales.
Jina AI lanza v5-omni para una recuperación cuádruple eficiente
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
