Resemble AI, DramaBox 음성 모델 오픈소스 공개

Resemble AI는 Hugging Face에서 고급 음성 생성 모델인 DramaBox를 오픈소스로 공개하며 AI 음성 기술에 큰 도약을 이루었습니다. DramaBox는 감독 수준의 제어를 위해 설계된 최초의 음성 엔진으로, 사용자가 대사와 함께 한숨이나 속삭임 같은 무대 지시를 입력할 수 있습니다. 이를 통해 AI가 생성한 음성은 기계적인 출력에서 감정이 풍부한 연기로 변모하여 인간 성우나 광범위한 후반 작업이 필요 없게 됩니다. DramaBox는 제로샷 음성 클로닝 기능을 갖추고 있어, 단 10초의 참조 음성만으로 목표 음성을 모방할 수 있습니다. 또한 자연어 프롬프트를 통해 캐릭터의 나이, 억양, 감정을 설정할 수 있어 스튜디오 품질의 48kHz 스테레오 오디오를 생성합니다. 오용 방지를 위해 모든 오디오에는 압축 및 편집에 강한 보이지 않는 워터마크가 포함되어 있습니다. 이 모델은 Lightricks의 LTX-2.3 오디오 기반 위에 구축되었으며, 텍스트 처리를 위해 Diffusion Transformer와 Gemma 3 12B 같은 첨단 기술을 통합하고 있습니다.

함께 보면 좋은 콘텐츠