Şanghay merkezli yapay zeka laboratuvarı StepFun, metne dönüştürme olmadan gerçek zamanlı ses işleme için tasarlanmış son teknoloji bir ses yapay zeka modeli olan StepAudio 2.5 Realtime'ı piyasaya sürdü. Hem Çince hem İngilizceyi işleyebilen bu model, özellikle genişletilmiş rol yapma senaryolarında konuşma tabanlı ses ajanları için özelleştirildi. StepAudio 2.5, konuşma hızı ve duygusal ton gibi sözsüz ipuçlarını algılayan gelişmiş paralinguistik farkındalığa sahip olup, rol yapma odaklı pekiştirmeli öğrenme ile kişilik istikrarını koruyor.
StepFun'un dahili kıyaslamaları, StepAudio'nun paralinguistik anlama ve konuşma kalitesi açısından mevcut modelleri geride bıraktığını gösteriyor. Eski Microsoft çalışanı Jiang Daxin tarafından kurulan şirket, StepAudio'yu OpenAI'nın ses modu ile rekabet edecek şekilde konumlandırıyor ve üstün performans iddiasında bulunuyor. Model şu anda aktif durumda olup, ilk kişilik "Xiao Yue" kamu etkileşimine açık ve geliştiriciler API aracılığıyla özel kişilikler oluşturabiliyor. Bu yenilik, kripto ve Web3 uygulamalarında sosyal dApp'leri, metaverse etkileşimlerini ve sesle çalışan ticaret asistanlarını önemli ölçüde geliştirebilir.
StepFun, Duygu Algılamalı Gerçek Zamanlı Ses Yapay Zekası StepAudio 2.5'i Tanıttı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
