Xiaomi AI Lab, 646 dili destekleyebilen açık kaynaklı bir ses klonlama modeli olan OmniVoice'u tanıttı. Bu sıfır atış metinden sese (TTS) modeli, sadece birkaç saniyelik referans sesi kullanarak sesleri klonlayabilir ve orijinal sesin özelliklerini koruyarak birden fazla dilde konuşma üretebilir. Modelin kodu, ağırlıkları ve eğitim verileri Apache-2.0 lisansı altında erişilebilir durumdadır. OmniVoice, metni doğrudan akustik tokenlara eşleyen tek bir çift yönlü Transformer içeren minimalist bir mimariye sahiptir ve geleneksel çok aşamalı süreçleri atlar. Verimliliği ve telaffuz doğruluğunu artırmak için tam kod kitaplığı rastgele maskeleme ve önceden eğitilmiş parametre başlatma gibi yenilikler kullanır. 580.000 saatlik açık kaynak verisi üzerinde eğitilen model, düşük kaynaklı dillerde bile ses benzerliği ve anlaşılırlıkta üstün performans gösterir. Ek özellikler arasında metin tabanlı ses özelleştirme ve otomatik gürültü azaltma bulunur.