StepFun ra mắt StepAudio 2.5 với nhận diện cảm xúc

Phòng thí nghiệm AI có trụ sở tại Thượng Hải, StepFun, đã ra mắt StepAudio 2.5 Realtime, một mô hình AI giọng nói tiên tiến được thiết kế để xử lý âm thanh theo thời gian thực mà không cần chuyển đổi thành văn bản. Mô hình này có khả năng xử lý cả tiếng Trung và tiếng Anh, được tùy chỉnh cho các đại lý giọng nói đàm thoại, đặc biệt trong các kịch bản nhập vai kéo dài. StepAudio 2.5 nổi bật với khả năng nhận thức ngôn ngữ phi ngữ nghĩa tiên tiến, phát hiện các tín hiệu phi ngôn từ như tốc độ nói và tông cảm xúc, đồng thời duy trì sự ổn định của nhân vật thông qua học tăng cường đặc thù cho nhập vai. Các tiêu chuẩn nội bộ của StepFun cho thấy StepAudio vượt trội hơn các mô hình hiện có về khả năng hiểu ngôn ngữ phi ngữ nghĩa và chất lượng đàm thoại. Công ty, được thành lập bởi cựu chuyên gia Microsoft Jiang Daxin, định vị StepAudio là đối thủ cạnh tranh với chế độ giọng nói của OpenAI, khẳng định hiệu suất vượt trội. Mô hình hiện đã hoạt động, với nhân vật ban đầu "Xiao Yue" có sẵn để tương tác công khai, và các nhà phát triển có thể tạo nhân vật tùy chỉnh qua API. Sự đổi mới này có thể ảnh hưởng đáng kể đến các ứng dụng tiền mã hóa và Web3, nâng cao các dApp xã hội, tương tác metaverse và trợ lý giao dịch hỗ trợ giọng nói.

Bạn cũng có thể thích