StepAudio 2.5 ASR startet mit MTP-Technologie für verbesserte Transkription

Jiepao Xingchen hat sein fortschrittliches automatisches Spracherkennungsmodell StepAudio 2.5 ASR vorgestellt, das die Multi-Token Prediction (MTP)-Technologie verwendet. Diese Innovation beschleunigt die Inferenzgeschwindigkeit und nutzt ein Kontextfenster von 32K, was eine nahtlose Transkription von 30-minütigen Audiodateien ohne Unterteilung ermöglicht. Die ASR+MTP-5-Architektur des Modells steigert den Inferenzdurchsatz um 400 %, reduziert die Latenzzeit um 60 % und senkt die Kosten um 80 %, wobei eine Spitzenrate von 500 Tokens pro Sekunde erreicht wird. Tests zeigen eine verbesserte Genauigkeit und niedrigere Wortfehlerraten im Vergleich zu Wettbewerbern.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.

Das könnte Ihnen auch gefallen