Phòng thí nghiệm AI có trụ sở tại Thượng Hải, StepFun, đã ra mắt StepAudio 2.5 Realtime, một mô hình AI giọng nói tiên tiến được thiết kế để xử lý âm thanh theo thời gian thực mà không cần chuyển đổi thành văn bản. Mô hình này có khả năng xử lý cả tiếng Trung và tiếng Anh, được tùy chỉnh cho các đại lý giọng nói đàm thoại, đặc biệt trong các kịch bản nhập vai kéo dài. StepAudio 2.5 nổi bật với khả năng nhận thức ngôn ngữ phi ngữ nghĩa tiên tiến, phát hiện các tín hiệu phi ngôn từ như tốc độ nói và tông cảm xúc, đồng thời duy trì sự ổn định của nhân vật thông qua học tăng cường đặc thù cho nhập vai.
Các tiêu chuẩn nội bộ của StepFun cho thấy StepAudio vượt trội hơn các mô hình hiện có về khả năng hiểu ngôn ngữ phi ngữ nghĩa và chất lượng đàm thoại. Công ty, được thành lập bởi cựu chuyên gia Microsoft Jiang Daxin, định vị StepAudio là đối thủ cạnh tranh với chế độ giọng nói của OpenAI, khẳng định hiệu suất vượt trội. Mô hình hiện đã hoạt động, với nhân vật ban đầu "Xiao Yue" có sẵn để tương tác công khai, và các nhà phát triển có thể tạo nhân vật tùy chỉnh qua API. Sự đổi mới này có thể ảnh hưởng đáng kể đến các ứng dụng tiền mã hóa và Web3, nâng cao các dApp xã hội, tương tác metaverse và trợ lý giao dịch hỗ trợ giọng nói.
StepFun Ra Mắt StepAudio 2.5 AI Giọng Nói Thời Gian Thực với Phát Hiện Cảm Xúc
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
