facebook_sharetelegram_sharetwitter_shareline_share

加密快訊

小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice

2026.05.07 18:31

小米AI實驗室推出多語言語音克隆TTS模型OmniVoice,采用單一雙向Transformer極簡架構,支持646種語言語音合成,在中英文場景的合成質量和推理速度優於主流模型。該模型基於約58萬小時、50個開源數據集訓練,對低資源語種使用動態上采樣策略,在24種與102種語言測試中語音相似度和可懂度超越多款商用系統,部分指標接近甚至優於真實語音。OmniVoice支持跨語言語音克隆、自定義音色、帶噪參考音頻適配、副語言控制和發音糾錯,並已在Github和Huggingface等平台開源訓練、推理代碼及模型權重。

你可能想知道