Resemble AI đã mở mã nguồn mô hình tạo giọng nói tiên tiến của mình, DramaBox, trên Hugging Face, đánh dấu một bước tiến quan trọng trong công nghệ giọng nói AI. DramaBox là động cơ giọng nói đầu tiên được thiết kế để kiểm soát ở cấp độ đạo diễn, cho phép người dùng nhập các chỉ dẫn sân khấu như tiếng thở dài hoặc thì thầm cùng với lời thoại. Điều này biến giọng nói do AI tạo ra từ những âm thanh máy móc thành những màn trình diễn giàu cảm xúc, loại bỏ nhu cầu sử dụng diễn viên lồng tiếng con người hoặc hậu kỳ phức tạp.
DramaBox có tính năng sao chép giọng nói không cần huấn luyện trước, chỉ cần 10 giây âm thanh tham khảo để bắt chước giọng nói mục tiêu. Nó cũng cho phép người dùng thiết lập tuổi tác, giọng điệu và cảm xúc của nhân vật thông qua các lệnh ngôn ngữ tự nhiên, tạo ra âm thanh stereo chất lượng phòng thu với tần số 48kHz. Để ngăn chặn việc sử dụng sai mục đích, tất cả âm thanh đều có dấu watermark vô hình chống lại việc nén và chỉnh sửa. Mô hình được xây dựng trên nền tảng âm thanh LTX-2.3 của Lightricks và tích hợp các công nghệ tiên tiến như Diffusion Transformer và Gemma 3 12B để xử lý văn bản.
Resemble AI Ra Mắt DramaBox, Mô Hình Giọng Nói Mã Nguồn Mở Với Độ Sâu Cảm Xúc
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
