Shanghai-based AI lab StepFun has outperformed major tech competitors with its StepAudio 2.5 Realtime model, which excelled in all five major voice AI benchmarks from April 2026. The model surpassed GPT Realtime 1.5 and Gemini Live, demonstrating superior capabilities in understanding tone, emotion, and speech rate. Key scores include 80.41 in human evaluation, 86.36 in general dialogue performance, and 84.80 in automotive scenario testing.
StepAudio 2.5 Realtime's architecture integrates Automatic Speech Recognition, Text-to-Speech, and real-time dialogue processing into a unified system, reducing latency and enhancing nuance. The model employs persona-specific Reinforcement Learning from Human Feedback, allowing it to maintain consistent character traits. It supports both Chinese and English and is accessible via StepFun's platform API. The model's paralinguistic comprehension score of 82.18 highlights its ability to detect emotional cues, offering significant advancements in voice assistant technology.
StepFun's StepAudio 2.5 Realtime Dominates April 2026 Voice AI Benchmarks
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
