語(yǔ)音界Sora!微軟剛開(kāi)源新模型,一次生成90分鐘語(yǔ)音、3200倍壓縮率
今天凌晨,微軟研究院開(kāi)源了創(chuàng)新音頻模型VibeVoice-1.5B。
VibeVoice-1.5B開(kāi)創(chuàng)了語(yǔ)音界多個(gè)重大技術(shù)突破:一次性可連續(xù)合成90分鐘超長(zhǎng)逼真語(yǔ)音,之前多數(shù)模型只能合成60分鐘以內(nèi)語(yǔ)音,并且30分鐘后會(huì)出現(xiàn)音色漂移、語(yǔ)義斷裂等難題;
最多支持4名發(fā)言人,而之前開(kāi)源的SesameAILabs-CSM、HiggsAudio-V2等知名模型最多支持2人;可對(duì)24kHz原始音頻實(shí)現(xiàn)3200倍累計(jì)壓縮,并且壓縮效率是主流Encodec模型的80倍,同時(shí)仍能保持高保真語(yǔ)音效果;
以往TTS模型多依賴單一tokenizer提取特征,非常容易出現(xiàn)音色與語(yǔ)義不匹配,微軟通過(guò)首創(chuàng)雙tokenizer協(xié)同架構(gòu)成功解決這一難題。


開(kāi)源地址:https://huggingface.co/microsoft/VibeVoice-1.5B
在線demo:https://aka.ms/VibeVoice-Demo
VibeVoice案例
下面就為大家展示一下VibeVoice神奇的語(yǔ)音效果。
93分鐘超長(zhǎng)合成語(yǔ)音,一共四位演講者,兩男兩女。

這個(gè)是「AIGC開(kāi)放社區(qū)」根據(jù)demo測(cè)試的效果,主要是根據(jù)西游記二創(chuàng)了一段。使用了單一女性演講。


VibeVoice架構(gòu)簡(jiǎn)單介紹
VibeVoice首創(chuàng)了雙語(yǔ)音tokenizer模塊,聲學(xué)tokenizer與語(yǔ)義tokenizer,兩者各有分工又相互配合,為后續(xù)的建模提供高效壓縮且語(yǔ)義與聲學(xué)對(duì)齊”的混合特征。
聲學(xué)tokenizer承擔(dān)保留聲音特征并實(shí)現(xiàn)極致壓縮的核心任務(wù),其架構(gòu)采用基于變分自編碼器的對(duì)稱編碼-解碼結(jié)構(gòu),這種設(shè)計(jì)既解決了傳統(tǒng)變分自編碼器在自回歸建模中容易出現(xiàn)的方差坍縮問(wèn)題,簡(jiǎn)單說(shuō)就是數(shù)據(jù)多樣性丟失,又通過(guò)層級(jí)化的下采樣實(shí)現(xiàn)超高壓縮率。

聲學(xué)編碼器部分包含7個(gè)階段的改進(jìn)版Transformer模塊,和傳統(tǒng)Transformer依賴的自注意力模塊不同,該模塊采用1D深度可分離因果卷積,這種設(shè)計(jì)不僅支持流式處理,也就是一邊接收音頻一邊進(jìn)行特征提取,避免長(zhǎng)音頻全部加載進(jìn)來(lái)導(dǎo)致內(nèi)存不夠用,還能有效捕捉音頻的時(shí)間順序關(guān)聯(lián)性;
通過(guò)6個(gè)下采樣層逐步降低數(shù)據(jù)維度,最終將24kHz采樣率的原始音頻轉(zhuǎn)化為每秒僅7.5個(gè)潛在向量的形式,實(shí)現(xiàn)3200倍的累計(jì)壓縮率,并且每個(gè)編碼器與解碼器組件的參數(shù)規(guī)??刂圃?.4億左右,兼顧了處理效率與性能。
在訓(xùn)練方面,聲學(xué)tokenizer參考DAC框架的訓(xùn)練目標(biāo),引入生成器與判別器雙損失機(jī)制,生成器負(fù)責(zé)確保音頻重建質(zhì)量,判別器則通過(guò)區(qū)分合成音頻與真實(shí)音頻來(lái)優(yōu)化細(xì)節(jié)保真度,同時(shí)其變分自編碼器設(shè)計(jì)采用固定方差分布策略將方差定義為預(yù)先設(shè)定的正態(tài)分布,一種常見(jiàn)的數(shù)據(jù)分布形態(tài),而不是傳統(tǒng)變分自編碼器中的可學(xué)習(xí)參數(shù),通過(guò)特定計(jì)算方式確保潛在向量始終保持足夠的多樣性,為長(zhǎng)音頻生成的多樣性與穩(wěn)定性打下基礎(chǔ)。
和聲學(xué)tokenizer聚焦聲音特征不同,語(yǔ)義tokenizer的核心目標(biāo)是提取與文本語(yǔ)義對(duì)齊的特征,解決傳統(tǒng)單一tokenizer容易出現(xiàn)的音色與語(yǔ)義脫節(jié)問(wèn)題,比如悲傷的文本用歡快的語(yǔ)調(diào)合成。它的架構(gòu)與聲學(xué)tokenizer的編碼器部分完全對(duì)應(yīng),同樣包含7個(gè)階段的改進(jìn)版Transformer模塊與1D深度可分離因果卷積,但關(guān)鍵區(qū)別在于去掉了變分自編碼器組件,因?yàn)檎Z(yǔ)義特征需要具備確定性,以確保文本與語(yǔ)音的語(yǔ)義一致。
在訓(xùn)練方式上,語(yǔ)義tokenizer沒(méi)有采用音頻重建目標(biāo),而是以自動(dòng)語(yǔ)音識(shí)別為代理任務(wù):訓(xùn)練過(guò)程中,編碼器輸出的語(yǔ)義特征會(huì)輸入到一個(gè)臨時(shí)的Transformer解碼器中,這個(gè)解碼器的任務(wù)是根據(jù)語(yǔ)義特征預(yù)測(cè)對(duì)應(yīng)的文本內(nèi)容,通過(guò)這種方式強(qiáng)制語(yǔ)義特征與文本語(yǔ)義深度綁定;等訓(xùn)練完成后,用于預(yù)測(cè)文本的Transformer解碼器會(huì)被舍棄,只保留編碼器作為語(yǔ)義特征提取器,這樣做既實(shí)現(xiàn)了語(yǔ)義與文本的對(duì)齊,又通過(guò)移除多余模塊將語(yǔ)義tokenizer的推理速度提升40%,避免給長(zhǎng)音頻處理增加額外的計(jì)算負(fù)擔(dān)。
作為架構(gòu)的上下文理解與決策核心,VibeVoice選用預(yù)訓(xùn)練的Qwen2.5大語(yǔ)言模型作為序列建模主體,核心作用是解析復(fù)雜的用戶輸入包括多個(gè)說(shuō)話人的語(yǔ)音提示、文本腳本以及角色分配,并生成能夠引導(dǎo)后續(xù)擴(kuò)散生成的上下文隱藏狀態(tài)。
為了適配多說(shuō)話人長(zhǎng)音頻場(chǎng)景,VibeVoice對(duì)大語(yǔ)言模型的輸入形式進(jìn)行了針對(duì)性設(shè)計(jì):輸入序列采用“角色標(biāo)識(shí)-語(yǔ)音特征-文本腳本”交錯(cuò)拼接的格式,具體表現(xiàn)為[說(shuō)話人1:語(yǔ)音特征1,說(shuō)話人2:語(yǔ)音特征2,……,說(shuō)話人N:語(yǔ)音特征N]與[說(shuō)話人1:文本腳本1,說(shuō)話人2:文本腳本2,……,說(shuō)話人N:文本腳本N]的組合,其中語(yǔ)音特征是語(yǔ)音提示經(jīng)聲學(xué)tokenizer編碼后的潛在向量,文本腳本是對(duì)應(yīng)角色的文本內(nèi)容經(jīng)過(guò)分詞處理后轉(zhuǎn)化為嵌入向量,而說(shuō)話人k作為角色標(biāo)識(shí)標(biāo)簽,能讓大語(yǔ)言模型精準(zhǔn)關(guān)聯(lián)“某段文本應(yīng)該由哪個(gè)說(shuō)話人的音色生成”,從而實(shí)現(xiàn)多說(shuō)話人的自然輪替。

在模型訓(xùn)練與優(yōu)化方面,VibeVoice采用課程學(xué)習(xí)策略將大語(yǔ)言模型的輸入序列長(zhǎng)度從初始的4096個(gè)token逐步增加到65536個(gè)token,對(duì)應(yīng)24千赫茲采樣率下90分鐘的音頻長(zhǎng)度,避免模型因?yàn)橐婚_(kāi)始就處理超長(zhǎng)序列而出現(xiàn)訓(xùn)練失敗。
為了提升訓(xùn)練效率,預(yù)訓(xùn)練完成的聲學(xué)tokenizer與語(yǔ)義tokenizer參數(shù)在整個(gè)訓(xùn)練過(guò)程中保持不變,只更新大語(yǔ)言模型與后續(xù)擴(kuò)散頭的參數(shù),這樣做使訓(xùn)練周期縮短50%,還能確保特征提取模塊的穩(wěn)定性。
值得一提的是,VibeVoice-1.5B只是試水,未來(lái)微軟還會(huì)開(kāi)源一個(gè)更大參數(shù)的語(yǔ)音模型。















 
 
 















 
 
 
 