DeepSeek ha introducido un enfoque novedoso en la tecnología multimodal visual al incorporar "primitivas visuales" para mejorar las capacidades de razonamiento espacial de la IA. A diferencia de los métodos tradicionales que se centran en mejorar la resolución de la imagen, el enfoque de DeepSeek utiliza cuadros delimitadores y puntos como unidades fundamentales de pensamiento, permitiendo que los modelos de IA "señalen" objetos durante el razonamiento. Este método aborda la "Brecha de Referencia" en el razonamiento multimodal, donde el lenguaje por sí solo es insuficiente para referencias espaciales precisas. La empresa también destaca su eficiencia en el procesamiento de imágenes, utilizando un mecanismo de Atención Dispersa Comprimida para reducir significativamente el número de tokens requeridos. Esto resulta en velocidades de inferencia más rápidas y un menor uso de memoria, crucial para aplicaciones en tiempo real como la visión robótica y la conducción autónoma. A pesar de estos avances, DeepSeek reconoce desafíos como la dependencia de palabras clave y los límites de resolución, señalando áreas para desarrollo futuro.