Resemble AIは、先進的な音声生成モデル「DramaBox」をHugging Faceでオープンソース化し、AI音声技術における大きな飛躍を示しました。DramaBoxは、監督レベルの制御を可能にする初の音声エンジンであり、ユーザーはセリフと共にため息やささやきなどの舞台指示を入力できます。これにより、AI生成音声はロボット的な出力から感情豊かな演技へと変わり、人間の声優や大規模なポストプロダクションを必要としなくなります。 DramaBoxはゼロショット音声クローン機能を備え、ターゲットの声を模倣するためにわずか10秒の参照音声だけで済みます。また、自然言語のプロンプトを通じてキャラクターの年齢、アクセント、感情を設定でき、スタジオ品質の48kHzステレオ音声を生成します。悪用防止のため、すべての音声には圧縮や編集に強い不可視のウォーターマークが含まれています。このモデルはLightricksのLTX-2.3オーディオ基盤上に構築され、Diffusion TransformerやGemma 3 12Bなどの高度なテキスト処理技術を統合しています。