Xiaomi AI Labは、646言語に対応可能なオープンソースの音声クローンモデル「OmniVoice」を発表しました。このゼロショット音声合成(TTS)モデルは、数秒の参照音声だけで声をクローンし、複数の言語で元の声の特徴を維持しながら音声を生成できます。モデルのコード、重み、トレーニングデータはApache-2.0ライセンスの下で公開されています。
OmniVoiceは、単一の双方向トランスフォーマーを用いたミニマリストなアーキテクチャを特徴としており、従来の多段階プロセスを経ずにテキストを直接音響トークンにマッピングします。効率性と発音精度を向上させるために、フルコードブックランダムマスキングや事前学習パラメータ初期化などの革新技術を採用しています。580,000時間のオープンソースデータで訓練されたこのモデルは、音声の類似性と明瞭さに優れており、リソースの少ない言語でも高い性能を発揮します。追加機能として、テキストベースの音声カスタマイズや自動ノイズ低減も備えています。
Xiaomi、646言語対応の音声クローンモデル「OmniVoice」をオープンソース化
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
