StepFun, Duygu Algılamalı StepAudio 2.5'i Tanıttı

Şanghay merkezli yapay zeka laboratuvarı StepFun, metne dönüştürme olmadan gerçek zamanlı ses işleme için tasarlanmış son teknoloji bir ses yapay zeka modeli olan StepAudio 2.5 Realtime'ı piyasaya sürdü. Hem Çince hem İngilizceyi işleyebilen bu model, özellikle genişletilmiş rol yapma senaryolarında konuşma tabanlı ses ajanları için özelleştirildi. StepAudio 2.5, konuşma hızı ve duygusal ton gibi sözsüz ipuçlarını algılayan gelişmiş paralinguistik farkındalığa sahip olup, rol yapma odaklı pekiştirmeli öğrenme ile kişilik istikrarını koruyor. StepFun'un dahili kıyaslamaları, StepAudio'nun paralinguistik anlama ve konuşma kalitesi açısından mevcut modelleri geride bıraktığını gösteriyor. Eski Microsoft çalışanı Jiang Daxin tarafından kurulan şirket, StepAudio'yu OpenAI'nın ses modu ile rekabet edecek şekilde konumlandırıyor ve üstün performans iddiasında bulunuyor. Model şu anda aktif durumda olup, ilk kişilik "Xiao Yue" kamu etkileşimine açık ve geliştiriciler API aracılığıyla özel kişilikler oluşturabiliyor. Bu yenilik, kripto ve Web3 uygulamalarında sosyal dApp'leri, metaverse etkileşimlerini ve sesle çalışan ticaret asistanlarını önemli ölçüde geliştirebilir.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler