Resemble AI открывает исходники модели голоса DramaBox

Resemble AI опубликовала с открытым исходным кодом свою передовую модель генерации голоса DramaBox на платформе Hugging Face, что стало значительным прорывом в технологии голосового ИИ. DramaBox — первый голосовой движок, разработанный для управления на уровне режиссера, позволяющий пользователям вводить режиссерские указания, такие как вздохи или шепоты, вместе с диалогом. Это превращает сгенерированные ИИ голоса из роботизированных в эмоционально насыщенные исполнения, устраняя необходимость в человеческих актерах озвучивания или длительной постобработке. DramaBox поддерживает клонирование голоса без предварительной подготовки, требуя всего 10 секунд эталонного аудио для имитации целевого голоса. Также пользователи могут задавать возраст персонажа, акцент и эмоции с помощью естественных языковых команд, создавая аудио студийного качества с частотой 48 кГц в стерео. Для предотвращения злоупотреблений все аудио содержит невидимый водяной знак, устойчивый к сжатию и редактированию. Модель построена на аудиофреймворке Lightricks LTX-2.3 и интегрирует передовые технологии, такие как Diffusion Transformer и Gemma 3 12B для обработки текста.

Вам также может понравиться