Jina AI đã phát hành jina-embeddings-v5-omni, một mô hình vector đa phương thức bốn chiều mã nguồn mở hỗ trợ truy xuất văn bản, hình ảnh, âm thanh và video với chi phí tham số tối thiểu. Kiến trúc sáng tạo của mô hình cho phép tích hợp bộ mã hóa hình ảnh và âm thanh bằng cách đóng băng phần lõi chỉ dành cho văn bản và chỉ tinh chỉnh các thành phần kết nối, chiếm chưa đến 0,35% tổng số tham số. Cách tiếp cận này giúp các doanh nghiệp nâng cấp lên hệ thống đa phương thức mà không cần tính toán lại các chỉ mục văn bản hiện có, giảm đáng kể việc sử dụng bộ nhớ GPU lên đến 64% và tăng tốc độ đào tạo lên đến 3,9 lần.
Mô hình v5-omni, với khoảng 1,57 tỷ tham số, thể hiện hiệu suất tương đương với các mô hình lớn hơn như LCO-Embedding-Omni-7B, mặc dù kích thước nhỏ hơn. Mặc dù vẫn còn gặp khó khăn trong các nhiệm vụ truy xuất video, mô hình này cung cấp một con đường tiết kiệm chi phí cho các doanh nghiệp mở rộng khả năng truy xuất trên nhiều phương thức, tận dụng phần lõi văn bản mạnh mẽ để giảm thiểu chi phí bổ sung.
Jina AI Ra Mắt v5-omni Cho Truy Xuất Bốn Chế Độ Hiệu Quả
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
