Resemble AI veröffentlicht DramaBox Sprachmodell

Resemble AI hat sein fortschrittliches Sprachgenerierungsmodell DramaBox auf Hugging Face als Open Source veröffentlicht, was einen bedeutenden Fortschritt in der KI-Sprachtechnologie markiert. DramaBox ist die erste Sprach-Engine, die für Regie-Kontrolle auf Regisseursebene entwickelt wurde und es den Nutzern ermöglicht, Regieanweisungen wie Seufzer oder Flüstern neben dem Dialog einzugeben. Dadurch verwandeln sich KI-generierte Stimmen von robotischen Ausgaben zu emotional reichhaltigen Darbietungen, wodurch menschliche Synchronsprecher oder umfangreiche Nachbearbeitung überflüssig werden. DramaBox bietet Zero-Shot-Stimmenklonen und benötigt nur 10 Sekunden Referenzaudio, um eine Zielstimme nachzuahmen. Es erlaubt den Nutzern außerdem, das Alter, den Akzent und die Emotion eines Charakters durch natürliche Sprachbefehle festzulegen und produziert Studioqualität mit 48 kHz Stereo-Audio. Um Missbrauch zu verhindern, enthält alle Audiodateien ein unsichtbares Wasserzeichen, das gegen Kompression und Bearbeitung resistent ist. Das Modell basiert auf der LTX-2.3 Audio-Grundlage von Lightricks und integriert fortschrittliche Technologien wie Diffusion Transformer und Gemma 3 12B für die Textverarbeitung.

Das könnte Ihnen auch gefallen