DeepSeek, yapay zekanın mekansal akıl yürütme yeteneklerini geliştirmek için 'görsel ilkel' kavramını dahil ederek görsel çok modlu teknolojiye yenilikçi bir yaklaşım getirdi. Görüntü çözünürlüğünü artırmaya odaklanan geleneksel yöntemlerin aksine, DeepSeek'in yaklaşımı düşüncenin temel birimleri olarak sınırlayıcı kutular ve noktalar kullanıyor ve bu sayede yapay zeka modellerinin akıl yürütme sırasında nesnelere 'işaret etmesine' olanak tanıyor. Bu yöntem, yalnızca dilin kesin mekansal referanslar için yetersiz kaldığı çok modlu akıl yürütmedeki 'Referans Boşluğu'nu ele alıyor. Şirket ayrıca, görüntüleri işlerken Compressed Sparse Attention mekanizması kullanarak gereken token sayısını önemli ölçüde azalttığı için verimliliğini vurguluyor. Bu, robotik görme ve otonom sürüş gibi gerçek zamanlı uygulamalar için kritik olan daha hızlı çıkarım hızları ve daha düşük bellek kullanımı sağlıyor. Bu ilerlemelere rağmen, DeepSeek tetikleyici kelime bağımlılığı ve çözünürlük sınırları gibi zorlukları kabul ediyor ve gelecekteki gelişim alanlarını işaret ediyor.