Xiaomi AI Labは、646言語に対応可能なオープンソースの音声クローンモデル「OmniVoice」を発表しました。このゼロショット音声合成(TTS)モデルは、数秒の参照音声だけで声をクローンし、複数の言語で元の声の特徴を維持しながら音声を生成できます。モデルのコード、重み、トレーニングデータはApache-2.0ライセンスの下で公開されています。 OmniVoiceは、単一の双方向トランスフォーマーを用いたミニマリストなアーキテクチャを特徴としており、従来の多段階プロセスを経ずにテキストを直接音響トークンにマッピングします。効率性と発音精度を向上させるために、フルコードブックランダムマスキングや事前学習パラメータ初期化などの革新技術を採用しています。580,000時間のオープンソースデータで訓練されたこのモデルは、音声の類似性と明瞭さに優れており、リソースの少ない言語でも高い性能を発揮します。追加機能として、テキストベースの音声カスタマイズや自動ノイズ低減も備えています。