DiaMoE-TTS:清華 & 巨人網(wǎng)絡(luò)開源的多方言語音合成利器
在數(shù)字化時代,語音合成技術(shù)(TTS)發(fā)展迅速,應(yīng)用廣泛。但方言和小語種在 TTS 領(lǐng)域面臨數(shù)據(jù)稀缺、正字法不一致、音系變化復(fù)雜等挑戰(zhàn)。為此,清華大學(xué)與巨人網(wǎng)絡(luò)聯(lián)合推出開源的多方言語音合成框架 DiaMoE-TTS,以創(chuàng)新技術(shù)支持方言保護和語言多樣性。
圖片
一、項目概述
DiaMoE-TTS 是一個基于國際音標(biāo)(IPA)的統(tǒng)一框架,專門針對多方言語音合成的復(fù)雜性而設(shè)計。它在 F5-TTS 架構(gòu)的基礎(chǔ)上,引入了方言感知的混合專家(MoE)模型來模擬不同方言之間的語音差異,并利用低秩適配器(LoRA)和條件適配器進行參數(shù)高效的自適應(yīng),從而能夠快速遷移到新的方言。與依賴大規(guī)?;?qū)S匈Y源的方法不同,DiaMoE-TTS 支持可擴展的開放數(shù)據(jù)驅(qū)動合成,實驗表明其能夠生成自然且富有表現(xiàn)力的語音,即使在只有數(shù)小時數(shù)據(jù)的情況下,也能對未見過的新方言以及專業(yè)領(lǐng)域(如京?。崿F(xiàn)零樣本性能。
圖片
二、核心功能
(一)多方言語音合成
DiaMoE-TTS 支持多種漢語方言以及普通話的語音合成,目前已涵蓋 11 種漢語方言,并計劃擴展至歐洲語言。這為方言和小語種的語音合成提供了強大的技術(shù)支持,讓這些語言能夠在數(shù)字世界中被聽見。
(二)低資源適配
許多方言由于數(shù)據(jù)稀缺,難以進行有效的語音合成建模。DiaMoE-TTS 提出了參數(shù)高效遷移(PEFT)策略,僅需微調(diào)少量參數(shù)即可完成方言擴展,而無需對龐大的主干網(wǎng)絡(luò)和 MoE 模塊進行重新訓(xùn)練,大大降低了方言合成的技術(shù)門檻。
(三)高可擴展性
該框架完全開源,包括數(shù)據(jù)預(yù)處理、訓(xùn)練和推理的完整代碼,方便研究者和開發(fā)者進行復(fù)現(xiàn)與擴展。這種開放性使得DiaMoE-TTS 能夠適應(yīng)不斷變化的技術(shù)需求和語言環(huán)境。
(四)高自然度語音合成
通過方言感知的MoE 架構(gòu),DiaMoE-TTS 能夠根據(jù)輸入的 IPA 自動選擇最適合的專家網(wǎng)絡(luò)進行語音合成,從而保留每種方言的獨特音色和韻律,生成的語音自然流暢且富有表現(xiàn)力。
三、技術(shù)揭秘
(一)統(tǒng)一的IPA 前端
在多方言語音合成中,使用拼音或字符輸入常常帶來嚴(yán)重的歧義與不一致問題。DiaMoE-TTS 在前端設(shè)計中引入了國際音標(biāo)(IPA)作為統(tǒng)一的輸入體系,將所有方言的語音映射到同一音素空間。這種方式消除了跨方言間的差異性,使得模型能夠在統(tǒng)一的表征體系下進行訓(xùn)練,保證了建模的一致性與泛化能力。
(二)方言感知MoE 架構(gòu)
傳統(tǒng)的單一建模網(wǎng)絡(luò)在多方言任務(wù)下容易出現(xiàn)“風(fēng)格平均化”,導(dǎo)致各地方言的特色被弱化。MoE 結(jié)構(gòu)通過引入多個專家網(wǎng)絡(luò),讓不同的專家專注于學(xué)習(xí)不同方言的特征;同時,動態(tài)門控機制會根據(jù)輸入 IPA 自動選擇最合適的專家路由,從而保證了每種方言的音色和韻律特點得以保留。為了增強門控的區(qū)分能力,還加入了方言分類輔助損失,使專家網(wǎng)絡(luò)在訓(xùn)練時能夠更有針對性地建模方言特征。
(三)低資源適配策略(PEFT)
在text embedding 層和注意力層中融入了 Conditioning Adapter 與 LoRA,僅需微調(diào)少量參數(shù)即可完成方言擴展,主干與 MoE 模塊保持凍結(jié),從而避免對已有知識的遺忘。此外,結(jié)合音高和語速擾動等數(shù)據(jù)增強手段,顯著提升了模型在低資源條件下的合成表現(xiàn)。
(四)多階段訓(xùn)練方法
基于F5-TTS 的成熟模型,框架首先利用 IPA 音素轉(zhuǎn)換數(shù)據(jù)進行預(yù)熱訓(xùn)練,實現(xiàn)輸入形式的平滑過渡。接著,通過聯(lián)合訓(xùn)練多個開源方言數(shù)據(jù),激活 MoE 結(jié)構(gòu),學(xué)習(xí)共享特征并區(qū)分不同方言的發(fā)音模式。動態(tài)門控機制和方言分類輔助損失的引入,進一步優(yōu)化了 MoE 的分流效果,精準(zhǔn)捕捉每種方言的獨特韻味。對于語料稀缺的新方言,則運用 PEFT 策略結(jié)合數(shù)據(jù)增強,實現(xiàn)高效遷移,同時確保原有知識不被遺忘。
四、應(yīng)用場景
(一)教育領(lǐng)域
在教育領(lǐng)域,DiaMoE-TTS 為方言和小語種教學(xué)提供了強大的支持。通過生成自然流暢的方言語音,它可以幫助學(xué)生更好地學(xué)習(xí)和掌握不同語言的發(fā)音,增強語言學(xué)習(xí)的趣味性和效果。無論是普通話學(xué)習(xí)還是方言傳承,DiaMoE-TTS 都能提供生動的語音示范,讓語言學(xué)習(xí)更加直觀和高效。
(二)文化保護
方言和小語種是文化多樣性的重要組成部分。DiaMoE-TTS 通過語音合成技術(shù)記錄和重現(xiàn)瀕臨消失的方言,為文化保護提供了有力支持。它能夠生成多種方言的語音,保留這些語言的獨特音色和韻律,幫助人們更好地理解和傳承這些珍貴的文化遺產(chǎn)。
(三)虛擬人與數(shù)字內(nèi)容
在虛擬人和數(shù)字內(nèi)容創(chuàng)作中,DiaMoE-TTS 可以為虛擬角色提供多樣化的方言語音,豐富虛擬角色的表現(xiàn)力。無論是虛擬主播、虛擬客服還是數(shù)字角色,DiaMoE-TTS 都能生成自然、富有表現(xiàn)力的語音,提升用戶體驗,讓虛擬角色更加生動和真實。
(四)數(shù)字文旅
在跨境交流中,DiaMoE-TTS 支持多種語言和方言的語音合成,能夠促進不同語言背景的人群之間的交流與理解。無論是國際商務(wù)、文化交流還是旅游出行,DiaMoE-TTS 都能提供自然、準(zhǔn)確的語音合成,幫助人們跨越語言障礙,實現(xiàn)更有效的溝通。
(五)跨境交流
在跨境交流中,DiaMoE-TTS 支持多種語言和方言的語音合成,能夠促進不同語言背景的人群之間的交流與理解。無論是國際商務(wù)、文化交流還是旅游出行,DiaMoE-TTS 都能提供自然、準(zhǔn)確的語音合成,幫助人們跨越語言障礙,實現(xiàn)更有效的溝通。
五、快速使用
(一)安裝
通過以下命令安裝DiaMoE-TTS:
# clone code
git clone https://github.com/GiantAILab/DiaMoE-TTS.git
cd DiaMoE-TTS
# conda environment
conda create -n diamoetts pythnotallow=3.10
conda activate diamoetts
cd diamoe_tts
pip install -e .(二)訓(xùn)練
運行以下命令進行模型訓(xùn)練:
cd diamoe_tts
accelerate launch --config_file default_config.yaml \
src/f5_tts/train/train.py \
--config-name diamoetts.yaml(三)推理
運行以下命令進行模型推理:
bash ./src/f5_tts/infer/batch_infer.sh更多詳細信息請參考[GitHub 倉庫](https://github.com/GiantAILab/DiaMoE-TTS)。
六、結(jié)語
DiaMoE-TTS 作為清華大學(xué)與巨人網(wǎng)絡(luò)聯(lián)合開源的多方言語音合成框架,憑借其創(chuàng)新的技術(shù)設(shè)計和強大的功能,為方言保護、語言多樣性以及語音合成技術(shù)的發(fā)展提供了新的思路和工具。它不僅能夠生成自然、富有表現(xiàn)力的語音,還能在低資源條件下快速適配新的方言,展現(xiàn)了極高的實用價值和應(yīng)用潛力。
項目地址
GitHub 倉庫:https://github.com/GiantAILab/DiaMoE-TTS
Hugging Face 模型庫:https://huggingface.co/RICHARD12369/DiaMoE_TTS
arXiv 技術(shù)論文:https://www.arxiv.org/pdf/2509.22727















 
 
 









 
 
 
 