A DeepSeek introduziu uma abordagem inovadora para a tecnologia multimodal visual ao incorporar 'primitivas visuais' para melhorar as capacidades de raciocínio espacial da IA. Diferentemente dos métodos tradicionais que focam em aprimorar a resolução da imagem, a abordagem da DeepSeek utiliza caixas delimitadoras e pontos como unidades fundamentais de pensamento, permitindo que os modelos de IA 'aponte' para objetos durante o raciocínio. Esse método aborda a 'Lacuna de Referência' no raciocínio multimodal, onde a linguagem sozinha é insuficiente para referências espaciais precisas.
A empresa também destaca sua eficiência no processamento de imagens, utilizando um mecanismo de Atenção Esparsa Comprimida para reduzir significativamente o número de tokens necessários. Isso resulta em velocidades de inferência mais rápidas e menor uso de memória, crucial para aplicações em tempo real como visão robótica e direção autônoma. Apesar desses avanços, a DeepSeek reconhece desafios como a dependência de palavras-chave e limites de resolução, indicando áreas para desenvolvimento futuro.
DeepSeek Revela Primitivos Visuais para Melhorar o Raciocínio Espacial da IA
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
