DeepSeek представила новый подход к визуальной мультимодальной технологии, внедрив «визуальные примитивы» для улучшения пространственного мышления ИИ. В отличие от традиционных методов, которые сосредоточены на повышении разрешения изображений, подход DeepSeek использует ограничивающие рамки и точки в качестве фундаментальных единиц мышления, позволяя моделям ИИ «указывать» на объекты во время рассуждений. Этот метод решает проблему «пробела в ссылках» в мультимодальном рассуждении, когда одного языка недостаточно для точных пространственных ссылок.
Компания также подчеркивает эффективность обработки изображений, используя механизм сжатого разреженного внимания, который значительно сокращает количество необходимых токенов. Это приводит к более высокой скорости вывода и меньшему использованию памяти, что критично для приложений в реальном времени, таких как робототехническое зрение и автономное вождение. Несмотря на эти достижения, DeepSeek признает существующие проблемы, такие как зависимость от триггерных слов и ограничения разрешения, указывая на области для дальнейшего развития.
DeepSeek представляет визуальные примитивы для улучшения пространственного мышления ИИ
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
