Xiaomiは、動画の効果音生成を強化するために設計されたオープンソースのフレームワーク「ControlFoley」をリリースしました。従来の映像から音を推測するAI吹き替えモデルとは異なり、ControlFoleyは動画の内容に基づいて音を生成し、テキストの説明や参照音声を受け入れることで、クリエイターに音声スタイルの正確な制御を提供します。これにより、ノック音を「金属打撃音」に変換するなどの変換が可能であり、映像との同期も維持されます。
ControlFoleyは時空間的な視聴覚エンコーダーと「時間-音色分離」戦略を活用し、標準的な動画吹き替えベンチマークで最先端の性能を達成しています。意味的整合性や同期性などの指標でKling-Foleyのような商用システムとほぼ互角に競い合っていますが、一部のKLダイバージェンス指標ではやや劣る結果となっています。このフレームワークの技術報告書、コード、デモは現在公開されています。
Xiaomi、映像音響生成を強化するControlFoleyをオープンソース化
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
