A DeepSeek introduziu uma abordagem inovadora para a tecnologia multimodal visual ao incorporar 'primitivas visuais' para melhorar as capacidades de raciocínio espacial da IA. Diferentemente dos métodos tradicionais que focam em aprimorar a resolução da imagem, a abordagem da DeepSeek utiliza caixas delimitadoras e pontos como unidades fundamentais de pensamento, permitindo que os modelos de IA 'aponte' para objetos durante o raciocínio. Esse método aborda a 'Lacuna de Referência' no raciocínio multimodal, onde a linguagem sozinha é insuficiente para referências espaciais precisas. A empresa também destaca sua eficiência no processamento de imagens, utilizando um mecanismo de Atenção Esparsa Comprimida para reduzir significativamente o número de tokens necessários. Isso resulta em velocidades de inferência mais rápidas e menor uso de memória, crucial para aplicações em tempo real como visão robótica e direção autônoma. Apesar desses avanços, a DeepSeek reconhece desafios como a dependência de palavras-chave e limites de resolução, indicando áreas para desenvolvimento futuro.