DeepSeek verbessert KI-Raumverständnis mit visuellen Primitiven

DeepSeek hat einen neuartigen Ansatz für visuelle multimodale Technologie vorgestellt, indem es "visuelle Primitive" einführt, um die räumlichen Denkfähigkeiten von KI zu verbessern. Im Gegensatz zu herkömmlichen Methoden, die sich auf die Verbesserung der Bildauflösung konzentrieren, verwendet DeepSeek Bounding-Boxen und Punkte als grundlegende Denkeinheiten, die es KI-Modellen ermöglichen, bei der Argumentation auf Objekte zu "zeigen". Diese Methode adressiert die "Referenzlücke" im multimodalen Denken, bei der Sprache allein für präzise räumliche Bezüge nicht ausreicht. Das Unternehmen hebt zudem seine Effizienz bei der Bildverarbeitung hervor, indem es einen Compressed Sparse Attention-Mechanismus verwendet, der die Anzahl der benötigten Tokens erheblich reduziert. Dies führt zu schnelleren Inferenzgeschwindigkeiten und geringerem Speicherverbrauch, was für Echtzeitanwendungen wie Robotik-Vision und autonomes Fahren entscheidend ist. Trotz dieser Fortschritte erkennt DeepSeek Herausforderungen wie die Abhängigkeit von Triggerwörtern und Auflösungsgrenzen an und weist auf Bereiche für zukünftige Entwicklungen hin.