DeepSeek a introduit une approche novatrice de la technologie multimodale visuelle en incorporant des « primitives visuelles » pour améliorer les capacités de raisonnement spatial de l'IA. Contrairement aux méthodes traditionnelles qui se concentrent sur l'amélioration de la résolution des images, l'approche de DeepSeek utilise des boîtes englobantes et des points comme unités fondamentales de pensée, permettant aux modèles d'IA de « pointer » des objets lors du raisonnement. Cette méthode répond au « fossé de référence » dans le raisonnement multimodal, où le langage seul est insuffisant pour des références spatiales précises. L'entreprise met également en avant son efficacité dans le traitement des images, utilisant un mécanisme d'attention clairsemée compressée pour réduire significativement le nombre de tokens nécessaires. Cela se traduit par des vitesses d'inférence plus rapides et une moindre utilisation de la mémoire, ce qui est crucial pour des applications en temps réel telles que la vision robotique et la conduite autonome. Malgré ces avancées, DeepSeek reconnaît des défis tels que la dépendance aux mots déclencheurs et les limites de résolution, indiquant des axes de développement futurs.