DeepSeekが視覚プリミティブでAI空間推論を強化

DeepSeekは、AIの空間推論能力を向上させるために「視覚プリミティブ」を取り入れた新しい視覚マルチモーダル技術のアプローチを導入しました。従来の画像解像度の向上に焦点を当てる方法とは異なり、DeepSeekのアプローチはバウンディングボックスやポイントを思考の基本単位として使用し、AIモデルが推論中に対象物を「指し示す」ことを可能にします。この方法は、言語だけでは正確な空間参照が困難なマルチモーダル推論における「参照ギャップ」に対処しています。同社はまた、圧縮スパースアテンション機構を用いて必要なトークン数を大幅に削減し、画像処理の効率性を強調しています。これにより、推論速度が向上し、メモリ使用量が低減され、ロボットビジョンや自動運転などのリアルタイムアプリケーションにとって重要な成果となっています。これらの進歩にもかかわらず、DeepSeekはトリガーワード依存や解像度の限界といった課題を認識しており、今後の開発分野を示しています。