Jina AIは、テキスト、画像、音声、動画の検索を最小限のパラメータコストでサポートするオープンソースのクアッドモーダルベクトルモデル「jina-embeddings-v5-omni」をリリースしました。このモデルの革新的なアーキテクチャは、テキスト専用のバックボーンを固定し、全パラメータのわずか0.35%を占める接続コンポーネントのみを微調整することで、視覚および音声エンコーダーの統合を可能にしています。このアプローチにより、企業は既存のテキストインデックスを再計算することなくマルチモーダルシステムにアップグレードでき、GPUメモリ使用量を最大64%削減し、トレーニング速度を最大3.9倍に加速させることができます。 約15.7億パラメータを持つv5-omniモデルは、その小型サイズにもかかわらず、LCO-Embedding-Omni-7Bのようなより大きなモデルと同等の性能を示しています。動画検索タスクにはまだ課題がありますが、このモデルは強力なテキストバックボーンを活用して追加コストを最小限に抑えつつ、企業が複数のモダリティにわたる検索能力を拡大するためのコスト効率の高い道を提供します。