微軟NaturalSpeech語(yǔ)音合成推出第三代,網(wǎng)友驚呼:超自然!實(shí)至名歸
文本到語(yǔ)音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來(lái)取得了飛速發(fā)展。在大模型(LLM)時(shí)代下,語(yǔ)音合成技術(shù)能夠擴(kuò)展大模型的語(yǔ)音交互能力,更是受到了廣泛的關(guān)注。
多年來(lái),微軟持續(xù)關(guān)注語(yǔ)音領(lǐng)域的技術(shù)研究與產(chǎn)品研發(fā),為了合成高質(zhì)量自然的人類語(yǔ)音,NaturalSpeech 研究項(xiàng)目(https://aka.ms/speechresearch)應(yīng)運(yùn)而生。
為了實(shí)現(xiàn)這個(gè)宏偉遠(yuǎn)景,NaturalSpeech 項(xiàng)目將目標(biāo)拆分成幾個(gè)階段:
1)第一階段,在單個(gè)說(shuō)話人上取得媲美人類的語(yǔ)音質(zhì)量。為此,研究團(tuán)隊(duì)在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 語(yǔ)音合成數(shù)據(jù)集上達(dá)到了人類錄音水平的音質(zhì)。
2)第二階段,高效地實(shí)現(xiàn)像人類一樣多樣化的語(yǔ)音合成,包含不同的說(shuō)話人、韻律、情感、風(fēng)格等。為此,研究團(tuán)隊(duì)在 2023 年推出了 NaturalSpeech 2,利用擴(kuò)散模型(Diffusion Model)實(shí)現(xiàn)了零樣本(Zero-Shot)的語(yǔ)音合成。
在 2024 年,該研究團(tuán)隊(duì)聯(lián)合中科大、港中大(深圳)、浙大等機(jī)構(gòu)聯(lián)合發(fā)布了全新的系統(tǒng):NaturalSpeech 3,它從語(yǔ)音數(shù)據(jù)的 “表示” 和 “建?!?兩個(gè)角度出發(fā),利用創(chuàng)新的屬性分解擴(kuò)散模型和屬性分解語(yǔ)音神經(jīng)編解碼器 FACodec,通過 Data/Model Scaling,實(shí)現(xiàn)了零樣本語(yǔ)音合成的重要突破,極大地向第二階段目標(biāo)邁進(jìn)。
3)當(dāng)前,該聯(lián)合研究團(tuán)隊(duì)正在研究更自然的語(yǔ)音合成,最終實(shí)現(xiàn)像人類一樣自然且隨意的發(fā)聲。

NaturalSpeech 3 論文鏈接: https://arxiv.org/abs/2403.03100
NaturalSpeech 3 Demo 演示: https://speechresearch.github.io/naturalspeech3
NaturalSpeech 3 論文一經(jīng)推出就在國(guó)內(nèi)外社交媒體上引發(fā)熱議,推特網(wǎng)友盛贊:NaturalSpeech 3 是目前最好的零樣本 TTS 模型,標(biāo)題里的「Natural」可以說(shuō)是當(dāng)之無(wú)愧。

NaturalSpeech 3 可以僅僅通過 3s 的提示音頻在沒有見過的說(shuō)話人上實(shí)現(xiàn)效果驚艷音色克隆
NaturalSpeech 3 不僅能夠?qū)崿F(xiàn)逼真的音色模型,還能夠非常好的還原韻律,情感等特征。
可以感覺到,NaturalSpeech 3 生成的結(jié)果在音質(zhì)和音色方面和真實(shí)音頻幾乎沒有差別,并且非常好的復(fù)刻了提示音頻中包含的情緒等語(yǔ)音信息。
NaturalSpeech 3 還可以對(duì)不同的屬性使用不同的提示實(shí)現(xiàn)更為可控的生成,例如可以使用一個(gè)語(yǔ)速較快的人的聲音作為 duration 的提示,使得生成的結(jié)果同樣具有較快的語(yǔ)速。duration prompt,機(jī)器之心,3秒
可以發(fā)現(xiàn),NaturalSpeech 3 的音色仍然和其他屬性的 prompt 保持一致,但是跟隨了 duration prompt 較快語(yǔ)速。
NaturalSpeech 3 的成功秘訣來(lái)自于基于屬性分解的 Codec+Diffusion 建模范式以及 Data/Model Scaling。傳統(tǒng) TTS 系統(tǒng)因訓(xùn)練數(shù)據(jù)集有限,難以支持高質(zhì)量的零樣本語(yǔ)音合成。而最近的研究通過擴(kuò)大語(yǔ)料庫(kù),雖有所進(jìn)步,但在聲音質(zhì)量、相似性和韻律方面仍未達(dá)到理想水平。
NaturalSpeech 3 提出創(chuàng)新的屬性分解擴(kuò)散模型和屬性分解神經(jīng)語(yǔ)音編碼器 FACodec,通過將語(yǔ)音分解成不同屬性的子空間并根據(jù)不同的提示(prompt)分別生成,有效地降低了語(yǔ)音建模難度,從而大大提高了語(yǔ)音合成的質(zhì)量和自然度。
與此同時(shí),NaturalSpeech 3 通過將訓(xùn)練數(shù)據(jù)擴(kuò)展到 20 萬(wàn)小時(shí)(這是迄今為止公開的研究工作中使用的最大規(guī)模數(shù)據(jù))以及將模型大小擴(kuò)展到 1B(2B 甚至更大的模型正在訓(xùn)練中),進(jìn)一步提升語(yǔ)音合成的質(zhì)量和自然度。

屬性分解神經(jīng)語(yǔ)音編解碼器(FACodec): NaturalSpeech 3 提出一種創(chuàng)新的屬性分解神經(jīng)語(yǔ)音編解碼器(Codec)負(fù)責(zé)將復(fù)雜的語(yǔ)音波形轉(zhuǎn)換成代表不同語(yǔ)音屬性(內(nèi)容、韻律、音色和聲學(xué)細(xì)節(jié))的解耦子空間,并從這些屬性重構(gòu)高質(zhì)量的語(yǔ)音波形。
FACodec 通過使用語(yǔ)音編碼器、音色提取器、三個(gè)分解向量量化器(分別針對(duì)內(nèi)容、韻律和聲學(xué)細(xì)節(jié))、一個(gè)語(yǔ)音解碼器以及多種訓(xùn)練技術(shù)的組合,實(shí)現(xiàn)了這一過程。這種設(shè)計(jì)促進(jìn)了語(yǔ)音屬性間的解耦,簡(jiǎn)化了 TTS 對(duì)語(yǔ)音表示的建模過程。

NaturalSpeech 3的屬性分解神經(jīng)語(yǔ)音編解碼器FACodec
目前語(yǔ)音開源項(xiàng)目 Amphion 已經(jīng)支持 NaturalSpeech 3 的核心組件 FACodec,并且已發(fā)布預(yù)訓(xùn)練模型。FACodec 作為 NaturalSpeech 3 的核心,能夠?qū)?fù)雜的語(yǔ)音波形轉(zhuǎn)換成表示內(nèi)容、韻律、音色和聲學(xué)細(xì)節(jié)等屬性的解耦表示,并從這些屬性重構(gòu)高質(zhì)量的語(yǔ)音波形。
這一技術(shù)能夠顯著降低語(yǔ)音的建模難度,研究人員可以利用 FACodec 復(fù)現(xiàn) NaturalSpeech 3 或應(yīng)用到語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換等各式各樣的下游生成任務(wù)。
FACodec 預(yù)訓(xùn)練模型: https://huggingface.co/spaces/amphion/naturalspeech3_facodec
FACodec 代碼: https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec
屬性分解擴(kuò)展模型:NaturalSpeech 3 設(shè)計(jì)了多個(gè)擴(kuò)散模型模塊來(lái)分別建模音素持續(xù)時(shí)間、韻律、內(nèi)容、聲學(xué)細(xì)節(jié)(其中韻律,內(nèi)容,聲學(xué)細(xì)節(jié)共享一個(gè)Diffusion模型),而不需要單獨(dú)對(duì)音色進(jìn)行建模,因?yàn)橐羯卣骺梢灾苯訌?prompt 中提取。此外,每一個(gè)擴(kuò)散模型的 prompt 僅與該模塊的語(yǔ)音因素相關(guān),實(shí)現(xiàn)了對(duì)各個(gè)模塊的可控性生成。

NaturalSpeech 3的屬性分解擴(kuò)散模型
SOTA 的語(yǔ)音合成效果:經(jīng)過大量的實(shí)驗(yàn)驗(yàn)證,NaturalSpeech 3 在語(yǔ)音質(zhì)量、相似性、韻律和可懂度方面均超越了現(xiàn)有最先進(jìn)的 TTS 系統(tǒng)。特別是,在 LibriSpeech 測(cè)試集上,與真實(shí)語(yǔ)音相比,NaturalSpeech 3 在 CMOS 評(píng)分上達(dá)到了相當(dāng)甚至更好的語(yǔ)音質(zhì)量;在語(yǔ)音相似度方面,實(shí)現(xiàn)了新的最佳水平;在韻律建模上也展現(xiàn)了顯著的改進(jìn)。

NaturalSpeech 3和其它TTS系統(tǒng)比較

NaturalSpeech3在不同模型大小和數(shù)據(jù)量下的比較
FACodec的擴(kuò)展用途: NaturalSpeech 3 中提出的FACodec不僅僅在非自回歸語(yǔ)音合成中取得了很好的結(jié)果,而且進(jìn)一步證明了其在自回歸語(yǔ)音合成范式中的顯著效果。作者們使用經(jīng)典的自回歸架構(gòu)VALL-E,相比原本的基于RVQ的Codec,在音質(zhì)、相似度、穩(wěn)定性上都有非常顯著的提升!這進(jìn)一步說(shuō)明了基于屬性分解的語(yǔ)音表征的巨大空間。
Data/Model Scaling:值得一提的是,NaturalSpeech 3 還將模型拓展到 1B 大小、數(shù)據(jù)量拓展到 20 萬(wàn)小時(shí)左右,在提升合成語(yǔ)音質(zhì)量,相似度,可理解性方等面的令人期待的結(jié)果,展示了較強(qiáng)的 Scaling 能力。















 
 
 




 
 
 
 