Jiepao Xingchen đã ra mắt mô hình nhận dạng giọng nói tự động tiên tiến của mình, StepAudio 2.5 ASR, với công nghệ Dự đoán Đa Token (MTP). Đổi mới này tăng tốc độ suy luận và sử dụng cửa sổ ngữ cảnh 32K, cho phép phiên âm liền mạch âm thanh 30 phút mà không cần cắt nhỏ. Kiến trúc ASR+MTP-5 của mô hình tăng thông lượng suy luận lên 400%, giảm độ trễ 60% và cắt giảm chi phí 80%, đạt tốc độ đỉnh 500 token mỗi giây. Các bài kiểm tra cho thấy độ chính xác được cải thiện và tỷ lệ lỗi từ thấp hơn so với các đối thủ cạnh tranh.