StepFun startet StepAudio 2.5 mit Emotionserkennung

Das in Shanghai ansässige KI-Labor StepFun hat StepAudio 2.5 Realtime vorgestellt, ein hochmodernes Sprach-KI-Modell, das für die Echtzeit-Audioverarbeitung ohne Textumwandlung entwickelt wurde. Das Modell, das sowohl Chinesisch als auch Englisch verarbeiten kann, ist speziell für konversationelle Sprachagenten ausgelegt, insbesondere für erweiterte Rollenspiel-Szenarien. StepAudio 2.5 verfügt über eine fortschrittliche paralinguistische Wahrnehmung, erkennt nonverbale Hinweise wie Sprechgeschwindigkeit und emotionalen Ton und gewährleistet durch rollenspielspezifisches Verstärkungslernen die Stabilität der Persona. Interne Benchmarks von StepFun zeigen, dass StepAudio bestehende Modelle in der paralinguistischen Verständigung und der Gesprächsqualität übertrifft. Das Unternehmen, gegründet vom ehemaligen Microsoft-Veteranen Jiang Daxin, positioniert StepAudio als Konkurrenten zum Sprachmodus von OpenAI und behauptet eine überlegene Leistung. Das Modell ist jetzt live, mit der ersten Persona "Xiao Yue", die der Öffentlichkeit zur Interaktion zur Verfügung steht, und Entwickler können über die API eigene Personas erstellen. Diese Innovation könnte erhebliche Auswirkungen auf Krypto- und Web3-Anwendungen haben, indem sie soziale dApps, Metaverse-Interaktionen und sprachgesteuerte Handelsassistenten verbessert.

Das könnte Ihnen auch gefallen