DeepSeek улучшает пространственное мышление ИИ с визуальными примитивами

DeepSeek представила новый подход к визуальной мультимодальной технологии, внедрив «визуальные примитивы» для улучшения пространственного мышления ИИ. В отличие от традиционных методов, которые сосредоточены на повышении разрешения изображений, подход DeepSeek использует ограничивающие рамки и точки в качестве фундаментальных единиц мышления, позволяя моделям ИИ «указывать» на объекты во время рассуждений. Этот метод решает проблему «пробела в ссылках» в мультимодальном рассуждении, когда одного языка недостаточно для точных пространственных ссылок. Компания также подчеркивает эффективность обработки изображений, используя механизм сжатого разреженного внимания, который значительно сокращает количество необходимых токенов. Это приводит к более высокой скорости вывода и меньшему использованию памяти, что критично для приложений в реальном времени, таких как робототехническое зрение и автономное вождение. Несмотря на эти достижения, DeepSeek признает существующие проблемы, такие как зависимость от триггерных слов и ограничения разрешения, указывая на области для дальнейшего развития.