Tongyi Lab startet Fun-ASR 1.5 mit verbesserter Dialekterkennung

Tongyi Lab hat am 20. April sein neuestes Spracherkennungsmodell Fun-ASR 1.5 vorgestellt. Das Modell, das jetzt über Alibaba Clouds Bailian und die ModelScope-Community verfügbar ist, unterstützt 30 Sprachen, sieben große chinesische Dialektgruppen und über 20 regionale Akzente mit nur einem Modell. Dadurch entfällt die Notwendigkeit separater Modelle für jeden Dialekt. Interne Tests zeigen eine Reduzierung der Zeichenfehlerrate um 56,2 % bei Dialektszenarien im Vergleich zur vorherigen Version, wobei fünf Dialekte eine Genauigkeit von über 90 % erreichen. Das Modell bietet zudem eine verbesserte Erkennung klassischer Poesie mit einer Genauigkeit auf Zeichenebene von 97 %. Dieses einheitliche System adressiert die Herausforderung der Langzeiterkennung chinesischer Dialekte und macht es kommerziell nutzbar für Anwendungen wie Bildungs-Livestreaming, lokale Regierungs-Hotlines und Interview-Transkriptionen, indem es die Bereitstellung vereinfacht und die Notwendigkeit mehrerer Erkennungspipelines eliminiert.

Das könnte Ihnen auch gefallen