Jina AI ra mắt v5-omni cho truy xuất bốn chế độ

Jina AI đã phát hành jina-embeddings-v5-omni, một mô hình vector đa phương thức bốn chiều mã nguồn mở hỗ trợ truy xuất văn bản, hình ảnh, âm thanh và video với chi phí tham số tối thiểu. Kiến trúc sáng tạo của mô hình cho phép tích hợp bộ mã hóa hình ảnh và âm thanh bằng cách đóng băng phần lõi chỉ dành cho văn bản và chỉ tinh chỉnh các thành phần kết nối, chiếm chưa đến 0,35% tổng số tham số. Cách tiếp cận này giúp các doanh nghiệp nâng cấp lên hệ thống đa phương thức mà không cần tính toán lại các chỉ mục văn bản hiện có, giảm đáng kể việc sử dụng bộ nhớ GPU lên đến 64% và tăng tốc độ đào tạo lên đến 3,9 lần. Mô hình v5-omni, với khoảng 1,57 tỷ tham số, thể hiện hiệu suất tương đương với các mô hình lớn hơn như LCO-Embedding-Omni-7B, mặc dù kích thước nhỏ hơn. Mặc dù vẫn còn gặp khó khăn trong các nhiệm vụ truy xuất video, mô hình này cung cấp một con đường tiết kiệm chi phí cho các doanh nghiệp mở rộng khả năng truy xuất trên nhiều phương thức, tận dụng phần lõi văn bản mạnh mẽ để giảm thiểu chi phí bổ sung.