StepAudio 2.5 ASR fait ses débuts avec la technologie MTP pour une transcription améliorée

Jiepao Xingchen a lancé son modèle avancé de reconnaissance automatique de la parole, StepAudio 2.5 ASR, intégrant la technologie de Prédiction Multi-Token (MTP). Cette innovation accélère la vitesse d'inférence et utilise une fenêtre contextuelle de 32K, permettant une transcription fluide d'un audio de 30 minutes sans découpage. L'architecture ASR+MTP-5 du modèle augmente le débit d'inférence de 400 %, réduit la latence de 60 % et diminue les coûts de 80 %, atteignant un taux maximal de 500 tokens par seconde. Les tests montrent une précision améliorée et un taux d'erreur de mots plus faible par rapport aux concurrents.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.

Vous pourriez aussi aimer