Jiepao Xingchen a lancé son modèle avancé de reconnaissance automatique de la parole, StepAudio 2.5 ASR, intégrant la technologie de Prédiction Multi-Token (MTP). Cette innovation accélère la vitesse d'inférence et utilise une fenêtre contextuelle de 32K, permettant une transcription fluide d'un audio de 30 minutes sans découpage. L'architecture ASR+MTP-5 du modèle augmente le débit d'inférence de 400 %, réduit la latence de 60 % et diminue les coûts de 80 %, atteignant un taux maximal de 500 tokens par seconde. Les tests montrent une précision améliorée et un taux d'erreur de mots plus faible par rapport aux concurrents.