Xiaomiは、動画の効果音生成を強化するために設計されたオープンソースのフレームワーク「ControlFoley」をリリースしました。従来の映像から音を推測するAI吹き替えモデルとは異なり、ControlFoleyは動画の内容に基づいて音を生成し、テキストの説明や参照音声を受け入れることで、クリエイターに音声スタイルの正確な制御を提供します。これにより、ノック音を「金属打撃音」に変換するなどの変換が可能であり、映像との同期も維持されます。 ControlFoleyは時空間的な視聴覚エンコーダーと「時間-音色分離」戦略を活用し、標準的な動画吹き替えベンチマークで最先端の性能を達成しています。意味的整合性や同期性などの指標でKling-Foleyのような商用システムとほぼ互角に競い合っていますが、一部のKLダイバージェンス指標ではやや劣る結果となっています。このフレームワークの技術報告書、コード、デモは現在公開されています。