Jina AI представляет v5-omni для четырехмодального поиска

Jina AI выпустила jina-embeddings-v5-omni — открытый квадромодальный векторный модель, поддерживающую поиск по тексту, изображениям, аудио и видео с минимальными затратами параметров. Инновационная архитектура модели позволяет интегрировать визуальные и аудио энкодеры, замораживая текстовый бэкенд и донастраивая только соединительные компоненты, которые составляют всего 0,35% от общего числа параметров. Такой подход позволяет предприятиям обновляться до мультимодальных систем без пересчёта существующих текстовых индексов, значительно снижая использование памяти GPU до 64% и ускоряя обучение до 3,9 раза. Модель v5-omni с примерно 1,57 миллиарда параметров демонстрирует производительность, сопоставимую с более крупными моделями, такими как LCO-Embedding-Omni-7B, несмотря на меньший размер. Хотя она всё ещё сталкивается с трудностями в задачах поиска по видео, модель предлагает экономичный путь для предприятий расширить возможности поиска по нескольким модальностям, используя мощный текстовый бэкенд для минимизации дополнительных затрат.