清華&巨人網(wǎng)絡首創(chuàng)MoE多方言TTS框架，數(shù)據(jù)代碼方法全開源

2025-10-15 14:10:47

來自巨人網(wǎng)絡 AI Lab 與清華大學電子工程系 SATLab 的研究團隊聯(lián)合首創(chuàng)了?DiaMoe-TTS?—— 一個在一定程度上媲美工業(yè)級方言 TTS 模型的開源全套解決方案。他們基于語言學家的專業(yè)經(jīng)驗，構建了一個統(tǒng)一的 IPA 表達體系，并且在僅依賴開源方言 ASR 數(shù)據(jù)的前提下提出這一方案。

無論是中文的粵語、閩南話、吳語，還是歐洲的荷蘭比爾茨語方言、法國奧克語，亦或是非洲和南美的地方語言，方言都承載著獨特的音系與文化記憶，是人類語言多樣性的重要組成部分。然而，許多方言正在快速消失，語音技術如果不能覆蓋這些語言，勢必加劇數(shù)字鴻溝與文化失聲。

在當今大模型引領的語音合成時代，通用 TTS 系統(tǒng)已展現(xiàn)出令人驚嘆的能力，但方言 TTS 依然是相關從業(yè)者難以觸及的「灰色地帶」?，F(xiàn)有的工業(yè)級模型往往依賴巨量專有數(shù)據(jù)，這讓方言 TTS 從業(yè)者和研究者幾乎無從下手：缺乏統(tǒng)一的語料構建方法，更缺乏一個可實現(xiàn)多語言的端到端開源框架。

為此，來自巨人網(wǎng)絡 AI Lab 與清華大學電子工程系 SATLab 的研究團隊聯(lián)合首創(chuàng)了 DiaMoe-TTS —— 一個在一定程度上媲美工業(yè)級方言 TTS 模型的開源全套解決方案。他們基于語言學家的專業(yè)經(jīng)驗，構建了一個統(tǒng)一的 IPA 表達體系，并且在僅依賴開源方言 ASR 數(shù)據(jù)的前提下提出這一方案。

在推出中文方言版本之前，研究團隊已在英語、法語、德語、荷蘭比爾茨語等多語種場景中進行過驗證，確保該方法具備全球范圍內多語言的可擴展性與穩(wěn)健性。

最重要的是，DiaMoE-TTS 不僅僅是一個單點模型，而是一個面向學術界與開源社區(qū)的全鏈路貢獻：

全開源的數(shù)據(jù)預處理流程：讓研究者能夠從原始方言語音數(shù)據(jù)構建 TTS-ready 方言語音語料；
統(tǒng)一的 IPA 標注與對齊方法：解決跨方言建模的一致性問題；
完整的訓練與推理代碼：降低復現(xiàn)與擴展的門檻；
方言感知 MoE 架構與低資源適配策略：為研究者提供穩(wěn)定、靈活且可拓展的建模方法。

巨人網(wǎng)絡 AI Lab 與清華大學電子工程系 SATLab 希望借此推動方言語音合成的公平與普惠：讓任何研究者、開發(fā)者乃至語言文化保護工作者都能自由使用、改進與擴展這一框架；讓小眾語言與方言的聲音不再被淹沒在通用大模型的洪流中，而能通過開源的力量被更廣泛地聽見與傳承。

論文題目：DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation
Arxiv 地址: https://www.arxiv.org/abs/2509.22727

代碼與訓練推理腳本全面開源：

GitHub: https://github.com/GiantAILab/DiaMoE-TTS

數(shù)據(jù)構建方法開源：包含多方言 IPA 對齊語料生成流程，支持可復現(xiàn)的開放式研究。

Checkpoint Huggingface: https://huggingface.co/RICHARD12369/DiaMoE_TTS
Dataset Huggingface: https://huggingface.co/datasets/RICHARD12369/DiaMoE-TTS_IPA_Trainingset

生成 demo

成都話：祝福大家前程似錦，順水順風。

鄭州話：祝你前途大好，成就非凡！

石家莊話：好的開始，等于成功的一半兒。

西安話：祝愿大家前程似錦，夢想成真。

粵語：我系鐘意廣州嘅春天。

模型設計

統(tǒng)一 IPA 前端

在多方言語音合成中，使用拼音或字符輸入常常帶來嚴重的歧義與不一致問題，例如相同字符在不同方言中可能對應完全不同的發(fā)音。

DiaMoE-TTS 在前端設計中引入了國際音標（IPA）作為統(tǒng)一的輸入體系，將所有方言的語音映射到同一音素空間。這種方式消除了跨方言間的差異性，使得模型能夠在統(tǒng)一的表征體系下進行訓練，保證了建模的一致性與泛化能力。

方言感知 Mixture-of-Experts (MoE) 架構

在聲學建模部分，DiaMoE-TTS 設計了方言感知的 Mixture-of-Experts (MoE) 架構。傳統(tǒng)的單一建模網(wǎng)絡在多方言任務下容易出現(xiàn)「風格平均化」，導致各地方言的特色被弱化。MoE 結構通過引入多個專家網(wǎng)絡，讓不同的專家專注于學習不同方言的特征；同時，動態(tài)門控機制會根據(jù)輸入 IPA 自動選擇最合適的專家路由，從而保證了每種方言的音色和韻律特點得以保留。

為了增強門控的區(qū)分能力，我們還加入了方言分類輔助損失，使專家網(wǎng)絡在訓練時能夠更有針對性地建模方言特征。

低資源方言適配 (PEFT)

許多方言面臨極端的數(shù)據(jù)稀缺問題，甚至僅有數(shù)小時的錄音語料。DiaMoE-TTS 提出了參數(shù)高效遷移 (PEFT) 策略，分別在 text embedding 層和 DiT 的注意力層中融入了 Conditioning Adapter 與 LoRA，僅需微調少量參數(shù)即可完成方言擴展，主干與 MoE 模塊保持凍結，從而避免對已有知識的遺忘。

此外，研究團隊還采用了音高擾動與語速擾動等數(shù)據(jù)增強手段，即便在超低資源條件下，模型也能合成自然、流暢且風格鮮明的方言語音。

多階段訓練方法

DiaMoE-TTS 的訓練過程分為多個階段，以逐步提升模型性能并適應方言多樣性：

IPA 遷移初始化

在 F5-TTS 原始 checkpoint 的基礎上，引入經(jīng)過 IPA 音素轉換的 Emilia 部分數(shù)據(jù)，對模型進行預熱訓練，從而實現(xiàn)輸入形式從拼音字符到 IPA 的平滑遷移。

多方言聯(lián)合訓練

在統(tǒng)一 IPA 表達下，利用多個開源方言數(shù)據(jù)（CommonVoice 和 KeSpeech）進行聯(lián)合建模，同時激活 MoE 結構，使模型能夠學習共享特征并區(qū)分不同方言的發(fā)音模式。

方言專家強化

通過動態(tài)門控機制與方言分類輔助損失，進一步優(yōu)化 MoE 的分流效果，讓各專家更好地捕捉不同方言的獨特特征。

低資源快速適配

針對僅有數(shù)小時語料的新方言，采用 PEFT 策略（LoRA + Conditioning Adapter），結合音高 / 語速擾動等數(shù)據(jù)增強，實現(xiàn)高效遷移并保持已有知識不被遺忘。

這種多階段、漸進式訓練的方法，使 DiaMoE-TTS 能夠在保證穩(wěn)定性的同時，兼顧跨方言泛化與低資源適配能力。

研究結果

通過圖表可以看到，在訓練數(shù)據(jù)量較為充足（百小時）的粵語上，DiaMoE-TTS 在 WER、MOS 和 UTMOS 三個指標上均取得了接近工業(yè)界語音大模型的表現(xiàn)。而在上海話、成都話、西安話、鄭州話、天津話等其他方言（幾小時到幾十小時不等）的對比實驗中，受限于開源方言 ASR 數(shù)據(jù)在「質量」與「規(guī)?！股系牟蛔?，模型整體表現(xiàn)略遜于部分工業(yè)級大模型。

但值得強調的是，DiaMoE-TTS 支持的方言范圍更廣，甚至可以擴展到介于語音合成（TTS）與歌聲合成之間的特殊類型，如京劇韻白，并能在僅有極少量數(shù)據(jù)的情況下實現(xiàn)快速建模，這為方言保護與文化傳承提供了新的可能性。

在消融實驗中，研究團隊選擇了成都話、西安話、鄭州話、石家莊話四種方言，對比了三種不同配置：僅使用 IPA 的版本（w/o MoE）、僅使用 MoE 且輸入為拼音的版本（w/o IPA）、以及完整的 IPA + MoE 方法（Ours）。

實驗結果表明，IPA 統(tǒng)一前端是性能提升的關鍵，將輸入由拼音替換為 IPA 后，WER 從 90% 以上顯著下降到 30%~40% 區(qū)間，MOS 評分也提升了 1~2 分。同時，Dialect-aware MoE 架構能夠進一步增強方言風格，以西安話為例，WER 從 41.09% 降至 33.00%，MOS 從 2.33 提升到 3.15，表現(xiàn)出明顯的改進。

最終，完整方案（MoE + IPA）在所有方言上都取得了最佳效果，不僅顯著降低了錯誤率，也大幅提升了語音的自然度。這充分證明了 IPA 前端在解決跨方言發(fā)音歧義方面的有效性，以及 MoE 在強化方言建模上的重要作用，兩者結合成為 DiaMoE-TTS 的核心優(yōu)勢。

一句話總結

DiaMoE-TTS = IPA 前端統(tǒng)一化 + MoE 方言建模 + PEFT 低資源適配

在開放數(shù)據(jù)驅動下，實現(xiàn)低成本、低門檻、可擴展的多方言語音合成方案。

通俗易懂版本：不用海量數(shù)據(jù)，也不用復雜流程，DiaMoE-TTS 就能讓更多方言在數(shù)字世界開口說話。

未來展望

DiaMoE-TTS 的全面開源只是一個起點。未來，研究團隊將持續(xù)擴展更多方言與小語種的語料，完善 IPA 對齊與數(shù)據(jù)預處理流程，并探索更高效的低資源建模方法，讓方言語音合成的研究與應用更加低門檻、更易復現(xiàn)。

同時，研究團隊希望這一框架能夠讓全球的研究者與開發(fā)者更便捷地參與到方言與小語種的語音技術研究中，讓它們不僅停留在實驗室里被探索，更能在教育、文化保護、虛擬人、數(shù)字文旅與跨境交流等實際場景中發(fā)揮價值。他們相信，方言不應在數(shù)字時代被遺忘，每一種語言都值得在數(shù)字世界被聽見。

責任編輯：張燕妮來源：機器之心

AI 模型開源