Resemble AI Mở Mã Mẫu Giọng DramaBox

Resemble AI đã mở mã nguồn mô hình tạo giọng nói tiên tiến của mình, DramaBox, trên Hugging Face, đánh dấu một bước tiến quan trọng trong công nghệ giọng nói AI. DramaBox là động cơ giọng nói đầu tiên được thiết kế để kiểm soát ở cấp độ đạo diễn, cho phép người dùng nhập các chỉ dẫn sân khấu như tiếng thở dài hoặc thì thầm cùng với lời thoại. Điều này biến giọng nói do AI tạo ra từ những âm thanh máy móc thành những màn trình diễn giàu cảm xúc, loại bỏ nhu cầu sử dụng diễn viên lồng tiếng con người hoặc hậu kỳ phức tạp. DramaBox có tính năng sao chép giọng nói không cần huấn luyện trước, chỉ cần 10 giây âm thanh tham khảo để bắt chước giọng nói mục tiêu. Nó cũng cho phép người dùng thiết lập tuổi tác, giọng điệu và cảm xúc của nhân vật thông qua các lệnh ngôn ngữ tự nhiên, tạo ra âm thanh stereo chất lượng phòng thu với tần số 48kHz. Để ngăn chặn việc sử dụng sai mục đích, tất cả âm thanh đều có dấu watermark vô hình chống lại việc nén và chỉnh sửa. Mô hình được xây dựng trên nền tảng âm thanh LTX-2.3 của Lightricks và tích hợp các công nghệ tiên tiến như Diffusion Transformer và Gemma 3 12B để xử lý văn bản.

Bạn cũng có thể thích