Perceptron AI has unveiled its flagship multimodal model, Mk1, designed for video understanding and embodied reasoning. Founded by former Meta FAIR researchers Armen Aghajanyan and Akshat Shrivastava, the 14-member team aims to compete with industry giants like Google and OpenAI by offering Mk1 at a lower cost. The model excels in video temporal reasoning, capable of generating structured timeline analyses and detecting specific events within videos.
Mk1's capabilities extend to image processing, supporting pixel-level pointing, dense object counting, and complex OCR. It can convert documents into HTML, JSON, or Markdown, making it suitable for industrial applications such as dashboard digitization. For robotics, Mk1 outputs spatial primitives for policy models and can annotate teleoperated video recordings, reducing the need for manual annotation. The model is available through the Perceptron API and OpenRouter.
Perceptron AI Launches Mk1 Model, Challenging Google and OpenAI
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
