DeepSeek는 AI의 공간 추론 능력을 향상시키기 위해 '시각 원시 요소(visual primitives)'를 도입한 새로운 시각 다중모달 기술 접근법을 선보였습니다. 기존의 이미지 해상도 향상에 중점을 둔 전통적인 방법과 달리, DeepSeek의 접근법은 경계 상자와 점을 사고의 기본 단위로 사용하여 AI 모델이 추론 과정에서 객체를 '가리킬' 수 있도록 합니다. 이 방법은 언어만으로는 정확한 공간 참조가 어려운 다중모달 추론에서 발생하는 '참조 격차(Reference Gap)' 문제를 해결합니다. 또한 회사는 압축 희소 주의 메커니즘(Compressed Sparse Attention)을 사용하여 처리에 필요한 토큰 수를 크게 줄임으로써 이미지 처리 효율성을 강조합니다. 이는 로봇 비전이나 자율 주행과 같은 실시간 응용 분야에서 중요한 더 빠른 추론 속도와 낮은 메모리 사용량을 가능하게 합니다. 이러한 발전에도 불구하고 DeepSeek는 트리거 단어 의존성과 해상도 한계와 같은 과제를 인정하며 향후 개발이 필요한 영역임을 시사합니다.