Perceptron AI, video anlayışı ve somut akıl yürütme için tasarlanmış amiral gemisi multimodal modeli Mk1'i tanıttı. Eski Meta FAIR araştırmacıları Armen Aghajanyan ve Akshat Shrivastava tarafından kurulan 14 kişilik ekip, Mk1'i daha düşük maliyetle sunarak Google ve OpenAI gibi sektör devleriyle rekabet etmeyi hedefliyor. Model, video zamanlama akıl yürütmesinde üstün performans gösteriyor; yapılandırılmış zaman çizelgesi analizleri oluşturabiliyor ve videolardaki belirli olayları tespit edebiliyor. Mk1'in yetenekleri görüntü işlemeye de uzanıyor; piksel düzeyinde işaretleme, yoğun nesne sayımı ve karmaşık OCR destekliyor. Belgeleri HTML, JSON veya Markdown formatına dönüştürebiliyor, bu da onu gösterge paneli dijitalleştirme gibi endüstriyel uygulamalar için uygun hale getiriyor. Robotik alanında Mk1, politika modelleri için mekansal temel öğeler sağlıyor ve teleoperasyonlu video kayıtlarını notlandırarak manuel notlandırma ihtiyacını azaltıyor. Model, Perceptron API ve OpenRouter üzerinden erişilebilir durumda.