Resemble AI publie en open source le modèle vocal DramaBox

Resemble AI a rendu open source son modèle avancé de génération vocale, DramaBox, sur Hugging Face, marquant une avancée significative dans la technologie vocale IA. DramaBox est le premier moteur vocal conçu pour un contrôle de niveau réalisateur, permettant aux utilisateurs d’entrer des indications scéniques telles que des soupirs ou des chuchotements en plus des dialogues. Cela transforme les voix générées par IA, passant de sorties robotiques à des performances riches en émotions, éliminant ainsi le besoin d’acteurs vocaux humains ou d’une post-production lourde. DramaBox propose un clonage vocal zero-shot, nécessitant seulement 10 secondes d’audio de référence pour imiter une voix cible. Il permet également aux utilisateurs de définir l’âge, l’accent et l’émotion d’un personnage via des commandes en langage naturel, produisant un son stéréo de qualité studio à 48 kHz. Pour prévenir les usages abusifs, tous les audios incluent un filigrane invisible résistant à la compression et à l’édition. Le modèle est construit sur la base audio LTX-2.3 de Lightricks et intègre des technologies avancées telles que Diffusion Transformer et Gemma 3 12B pour le traitement du texte.

Vous pourriez aussi aimer