Perceptron AI hat sein Flaggschiff-Multimodalmodell Mk1 vorgestellt, das für Videoverstehen und verkörpertes Denken entwickelt wurde. Gegründet von den ehemaligen Meta FAIR-Forschern Armen Aghajanyan und Akshat Shrivastava, zielt das 14-köpfige Team darauf ab, mit Branchenriesen wie Google und OpenAI zu konkurrieren, indem es Mk1 zu einem niedrigeren Preis anbietet. Das Modell zeichnet sich durch zeitliche Videoanalyse aus und ist in der Lage, strukturierte Zeitachsenanalysen zu erstellen und spezifische Ereignisse in Videos zu erkennen. Die Fähigkeiten von Mk1 erstrecken sich auch auf die Bildverarbeitung, wobei Pixelgenaues Zeigen, dichtes Objektezählen und komplexe OCR unterstützt werden. Es kann Dokumente in HTML, JSON oder Markdown umwandeln, was es für industrielle Anwendungen wie die Digitalisierung von Dashboards geeignet macht. Für die Robotik liefert Mk1 räumliche Primitive für Policy-Modelle und kann teleoperierte Videoaufnahmen annotieren, wodurch der Bedarf an manueller Annotation reduziert wird. Das Modell ist über die Perceptron-API und OpenRouter verfügbar.