Jiepao Xingchen hat sein fortschrittliches automatisches Spracherkennungsmodell StepAudio 2.5 ASR vorgestellt, das die Multi-Token Prediction (MTP)-Technologie verwendet. Diese Innovation beschleunigt die Inferenzgeschwindigkeit und nutzt ein Kontextfenster von 32K, was eine nahtlose Transkription von 30-minütigen Audiodateien ohne Unterteilung ermöglicht. Die ASR+MTP-5-Architektur des Modells steigert den Inferenzdurchsatz um 400 %, reduziert die Latenzzeit um 60 % und senkt die Kosten um 80 %, wobei eine Spitzenrate von 500 Tokens pro Sekunde erreicht wird. Tests zeigen eine verbesserte Genauigkeit und niedrigere Wortfehlerraten im Vergleich zu Wettbewerbern.