偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯

發(fā)布于 2024-6-18 13:31
瀏覽
0收藏


通過高保真合成語音與真人語音無異。

首先來聽一段《凡人修仙傳》


你猜的沒錯,這段有聲書并非來自某個專業(yè)制作團(tuán)隊,而是一個 AI 模型 Seed-TTS,而這個模型則是來自字節(jié)跳動的 Seed Team。


TTS 是指文本轉(zhuǎn)語音,這是一種具備諸多妙用的技術(shù),像是讓個人智能助理說話、為視頻或游戲配音、輔助視障人士、制作有聲書等等。對于 TTS 技術(shù)研發(fā)者來說,流暢自然的表達(dá)一直以來都是值得追求的重要目標(biāo)。


字節(jié)跳動 Seed Team 發(fā)布的 Seed-TTS 不只是一個模型,而是一整個模型系列。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


論文標(biāo)題:Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

論文地址:https://arxiv.org/pdf/2406.02430

演示網(wǎng)站:https://bytedancespeech.github.io/seedtts_tech_report/


據(jù)介紹,該系列模型有能力合成自然度和表現(xiàn)力達(dá)到人類水平的語音。不僅如此,Seed-TTS 還能以零樣本方式基于一段較短的錄入語音片段生成可控的、高保真度的合成語音。


該團(tuán)隊在三個任務(wù)上評估了 Seed-TTS:零樣本語音上下文學(xué)習(xí)、說話人微調(diào)、情緒控制。為了方便未來的基準(zhǔn)測試,他們還發(fā)布了測試數(shù)據(jù)集的配置,并討論了該模型在產(chǎn)品部署方面的行為。


此外,該團(tuán)隊還提出了兩種可大幅提升模型性能的新型擴展技術(shù):通過自蒸餾實現(xiàn)語音分解以及通過強化學(xué)習(xí)實現(xiàn)偏好偏向。


然后,他們還比較了兩類主要的語音生成技術(shù)的優(yōu)劣:基于語言模型的方法和基于擴散的方法。為此,他們?yōu)?Seed-TTS 開發(fā)了一種非自回歸式的變體 Seed-TTS_DiT,這是一種完全基于擴展的語音生成模型,能以端到端的方式直接預(yù)測輸出語音的隱含表征。


方法


Seed-TTS 是一種基于自回歸 Transformer 的模型,如圖 1 所示。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


該系統(tǒng)包含 4 個主要模塊:語音 token 化器、token 語言模型、token 擴散模型和聲學(xué)聲碼器。


該團(tuán)隊還強調(diào),Seed-TTS 的訓(xùn)練使用了大量數(shù)據(jù)(比之前最大的 TTS 系統(tǒng)多幾個數(shù)量級),因而具備強大的泛化和涌現(xiàn)能力。


首先,語音 token 化器將語音信號轉(zhuǎn)換成語音 token 序列,然后基于其訓(xùn)練一個 token 語言模型。該團(tuán)隊研究了連續(xù)和離散的語音 token 化器,結(jié)果發(fā)現(xiàn) token 化器的設(shè)計對整個系統(tǒng)的性能來說至關(guān)重要。這個語言模型的訓(xùn)練使用了成對的文本和語音 token。在推理期間,該模型則以自回歸方式生成語音 token。


然后,生成的 token 交由擴散模型處理,以增強其聲學(xué)細(xì)節(jié)。其輸出再經(jīng)過聲學(xué)聲碼器處理,得到最終聲波波形。這個聲學(xué)聲碼器是單獨訓(xùn)練的。


類似于基于文本的語言模型,Seed-TTS 也要經(jīng)歷三個訓(xùn)練階段:預(yù)訓(xùn)練、微調(diào)和后訓(xùn)練。


預(yù)訓(xùn)練階段的目標(biāo)是盡可能多地覆蓋不同的場景和說話人,同時為一般語音建模確立一個穩(wěn)健的骨干。在這一階段,Seed-TTS 使用的訓(xùn)練數(shù)據(jù)量和模型規(guī)模都超過了之前的語音生成方法幾個數(shù)量級。


微調(diào)階段包含說話人微調(diào)和指令微調(diào)。說話人微調(diào)的重點是提高所選說話人組的表現(xiàn),而指令微調(diào)旨在提高可控性和交互性。后訓(xùn)練通過強化學(xué)習(xí)完成,從而整體提升模型。


該團(tuán)隊表示,相比于之前的模型,Seed-TTS 有兩大優(yōu)勢。


  • 第一,針對多種不同場景(包括怒吼、哭喊、聲情并茂演講等高難度場景),Seed-TTS 合成的語音都有更好的自然度和表現(xiàn)力。
  • 第二,Seed-TTS 解決了基于語言模型的 TTS 系統(tǒng)普遍存在的不穩(wěn)定問題。Seed-TTS 在穩(wěn)定性上的卓越表現(xiàn)得益于 token 和模型設(shè)計的提升、改進(jìn)過的訓(xùn)練和推理策略、數(shù)據(jù)增強和強化學(xué)習(xí)后訓(xùn)練。因此,Seed-TTS 在測試集上的表現(xiàn)出了顯著更優(yōu)的穩(wěn)健性。


由于使用了一個基礎(chǔ)模型來生成語音,因此 Seed-TTS 可以執(zhí)行多種不同任務(wù),比如語音上下文學(xué)習(xí)、可控式 TTS、跨語言 TTS、語音轉(zhuǎn)換、音色生成和說話風(fēng)格遷移。


實驗


零樣本上下文學(xué)習(xí)


該團(tuán)隊為實驗準(zhǔn)備了兩個測試集:客觀集(objective-set)和主觀集(subjective-set)。客觀集的樣本提取自英語(EN)和漢語普通話(ZH)的公共語料庫;這些語料庫曾被用于測量模型在多種客觀基準(zhǔn)上的性能表現(xiàn)。


具體來說,客觀集包含 1000 個來自 Common Voice 數(shù)據(jù)集的樣本和 2000 個來自 DiDiSpeech 數(shù)據(jù)集的樣本。主觀集則來自他們的內(nèi)部數(shù)據(jù)集,用于主觀評估,其中的樣本語音比客觀集豐富得多,包括多種口音、方言、情緒和說話風(fēng)格。該數(shù)據(jù)集包含英語和普通話的各 100 個樣本。


評估指標(biāo)。對于客觀評估,該團(tuán)隊采用了詞錯率(WER)和說話人相似度(SIM)指標(biāo)。對于主觀評估,則使用了 CMOS,即比較平均意見分?jǐn)?shù)(Comparative Mean Opinion Scores)。


在實踐中,如果 CMOS 分?jǐn)?shù)絕對值低于 0.1,則認(rèn)為相比較的兩個系統(tǒng)差別不大。表 1 給出了在這兩個測試集上的結(jié)果。為便于基準(zhǔn)測試,該團(tuán)隊發(fā)布了客觀集的配置:https://github.com/BytedanceSpeech/seed-tts-eval/tree/main


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


上下文學(xué)習(xí)結(jié)果。從表 1 中可以看到,Seed-TTS 的 WER 與真人語音相近,并且 SIM 也明顯更高。該結(jié)果也許可以這樣解釋:可以觀察到,在使用不同的說話風(fēng)格和在不同的背景環(huán)境中時,即使是同一說話人,真人語音和參考語音依然會有所不同。相較之下,Seed-TTS 可以準(zhǔn)確地捕獲參考語音的特性并基于其生成目標(biāo)語音,進(jìn)而更一致、更忠實地再現(xiàn)錄入語音片段。下面我們來聽幾個示例:


輸入 prompt:


Seed-TTS示例1


合成語音:


Seed-TTS示例2


在主觀測試中,Seed-TTS 在英語和普通話上的表現(xiàn)與真人語音接近 ——CMOS 分?jǐn)?shù)分別為 -0.07 和 -0.08。


此外,該團(tuán)隊還為之前一些模型執(zhí)行了同樣的評估,結(jié)果發(fā)現(xiàn)它們的 CMOS 結(jié)果都低于 -1,這說明這些合成語音和真人語音之間的差異很明顯。該團(tuán)隊表示,Seed-TTS 的主觀測試結(jié)果表明,在使用自然語音 prompt 的零樣本 ICL 設(shè)置中,Seed-TTS 是首個能生成與真人語音難以區(qū)分的結(jié)果的 TTS 系統(tǒng)實例。


對比傳統(tǒng)的說話人微調(diào)式 TTS 模型。該團(tuán)隊將他們的零樣本 ICL 系統(tǒng)與一組傳統(tǒng)的基于 FastSpeech 的說話人微調(diào)式 TTS 模型進(jìn)行了比較。他們收集了 10 個說話人的語音,并將其分為兩組:普通組(7 個說話人)和困難組(3 個說話人)。


對于每個說話人,每個系統(tǒng)都生成 30 段語音,涵蓋不同的場景、上下文和情緒。然后再由 10 位人類評估者給出偏好情況,之后計算平均偏好率,結(jié)果見圖 2。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


可以看到,對于普通組,相比于傳統(tǒng)的微調(diào)式 TTS 系統(tǒng),新的零樣本 ICL 系統(tǒng)有 47.9% 的樣本更受偏好。人類評估者表示,Seed-TTS 明顯在自然度和表現(xiàn)力方面更有優(yōu)勢。但是,對于困難組而言,傳統(tǒng)的微調(diào)模型表現(xiàn)更好。該團(tuán)隊推測,原因是新的零樣本 ICL 系統(tǒng)無法忠實地保持口音和特有的說話人風(fēng)格,尤其是當(dāng) 15 秒 prompt 中并不包含說話人代表性的韻律時。因此,如果能使用更長的 prompt 或讓 prompt 更好地覆蓋訓(xùn)練數(shù)據(jù),應(yīng)當(dāng)可以緩解這個問題。


語音理解評估。為了進(jìn)一步驗證 Seed-TTS 的生成質(zhì)量,該團(tuán)隊對生成的語音執(zhí)行了 ASR。結(jié)果見表 2。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


可以看到,相比于真人數(shù)據(jù),Seed-TTS 生成的數(shù)據(jù)在 clean 集上表現(xiàn)很好,在 other 集上表現(xiàn)較差。該團(tuán)隊猜測這是因為 Seed-TTS 在生成過程中傾向于降低背景噪聲,從而對噪聲的穩(wěn)健性降低。


可視化真人語音與 ICL 語音的說話人相似度。為了驗證合成語音中音色的保留情況,該團(tuán)隊使用 t-SNE 繪制了 25 個說話人的真人語音和合成語音的說話人嵌入,結(jié)果見圖 3。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


可以看到,來自同一說話人的真人語音與合成語音緊密地聚類在一起,這也佐證了之前的發(fā)現(xiàn):Seed-TTS 的語音生成質(zhì)量很好,并且與真人語音很相似。


說話人微調(diào)


在基礎(chǔ)的 Seed-TTS 預(yù)訓(xùn)練模型上,該團(tuán)隊又執(zhí)行了說話人微調(diào)(SFT)。


他們使用 WER 和 SIM 客觀指標(biāo)與 CMOS 主觀指標(biāo)評估了微調(diào)版 Seed-TTS_SFT 和基礎(chǔ)版 Seed-TTS_ICL 生成語音的表現(xiàn)。實驗結(jié)果見表 3。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


可以看到,微調(diào)版模型與基礎(chǔ)版在客觀指標(biāo)上表現(xiàn)相近,而微調(diào)版在主觀指標(biāo)上有 +0.37 的優(yōu)勢。這表明,微調(diào)版 Seed-TTS_SFT 模型能捕獲目標(biāo)說話人的更多細(xì)微細(xì)節(jié),例如細(xì)微的韻律變化和句尾的獨特發(fā)音模式。


通過指令微調(diào)實現(xiàn)可控性。為了進(jìn)一步提高說話人微調(diào)模型的可控性,該團(tuán)隊又嘗試了整合額外的指令微調(diào)(IFT)。指令微調(diào)可讓模型靈活控制生成語音的各個方面,比如表現(xiàn)力、語速、風(fēng)格、情緒等。


結(jié)果見表 4。該團(tuán)隊發(fā)現(xiàn),即使沒有明確的控制信號,Seed-TTS_SFT 依然在情緒控制方面得到中等準(zhǔn)確度。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


他們猜想,這是因為該模型有能力基于所提供的文本內(nèi)容推斷適當(dāng)?shù)哪繕?biāo)情緒。如果再加上額外的控制信號,準(zhǔn)確度能大幅提升。這里來聽一個示例:


文本:哇!恭喜你中了大樂透,八百萬可真不少呢!有什么特別的計劃或想法嗎?


生成語音:


Seed-TTS示例3


低延遲推理和流式處理


在實際部署應(yīng)用時,除了準(zhǔn)確度等性能指標(biāo)外,還有其它一些考慮因素,比如延遲、成本等。相比于傳統(tǒng)的 TTS 模型,Seed-TTS 的模型要大得多,這就會給部署帶來額外的阻礙。


為了解決這些難題,該團(tuán)隊采用了多種技術(shù)來降低推理成本和延遲。具體來說,他們模型部署時三方面的難題。


首先,他們實現(xiàn)了一個因果擴散架構(gòu)。這能在擴散模塊中實現(xiàn)流式處理,并顯著降低處理延遲和首包延遲。


其次,他們采用了一致性蒸餾技術(shù)和一種修改版的流匹配算法,以降低擴散模型的計算成本。


另一方面,他們也研究了降低大模型內(nèi)存和計算消耗的常用方法,比如分組式查詢注意力、分頁注意力、flash 注意力和模型量化。


這樣三板斧下來,如表 5 所示,經(jīng)過優(yōu)化的模型在保證客觀和主觀性能的同時,還顯著降低了延遲、計算和內(nèi)存消耗。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


模型擴展


為了進(jìn)一步提升 Seed-TTS 模型的性能并拓寬其應(yīng)用場景,該團(tuán)隊還為其提出了兩項擴展。一是用于提升音色可控性的自蒸餾方法。二是使用強化學(xué)習(xí)方法來全面提升模型的能力。


通過自蒸餾實現(xiàn)語音分解


語音分解(speech factorization)是指將語音分解為不同的分立的屬性。如果 TTS 系統(tǒng)具備這樣的功能,就能在合成語音時靈活地組合使用不同說話人的音色、韻律和內(nèi)容。


該團(tuán)隊為此提升了自蒸餾方案。該方法的核心原理是創(chuàng)建受控的語音對 —— 這些語音對的大部分信息都一樣,但有少量特定的目標(biāo)屬性不同。使用這樣的數(shù)據(jù)對,再加上一點對模型架構(gòu)的細(xì)微更新,可讓 Seed-TTS 實現(xiàn)高質(zhì)量的屬性分解。


該團(tuán)隊在音色屬性方面做了實驗。他們注意到,通過在 Seed-TTS 生成期間向擴散模塊引入說話人擾動,就能合成內(nèi)容與韻律模式相同但音色不一樣的語音。如圖 4 所示,這一任務(wù)也被稱為零樣本語音轉(zhuǎn)換(zero-shot voice conversion)。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


通過使用原始語音以及修改過音色的語音組成的增強型合成數(shù)據(jù)對,該團(tuán)隊對 Seed-TTS 系統(tǒng)的擴散模型進(jìn)行了重新訓(xùn)練。


實驗結(jié)果見表 6。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


可以看到,新提出的自蒸餾方法可通過增強型的音色分解顯著提升 SIM 指標(biāo),同時在所有其它維度上也更優(yōu)。下面給出了一個示例:


源音頻:


Seed-TTS示例4



音色 prompt: 


Seed-TTS示例5



轉(zhuǎn)換后的音頻:


Seed-TTS示例6


通過強化學(xué)習(xí)實現(xiàn)偏好偏向


該團(tuán)隊也探索了使用強化學(xué)習(xí)方法來提升 Seed-TTS。他們比較了使用外部獎勵模型的強化學(xué)習(xí)方法(如 PPO 和 REINFORCE)以及不使用外部獎勵模型的方法(如 DPO)。


結(jié)果發(fā)現(xiàn)這兩種方法都很有效。前者可實現(xiàn)對特定語音屬性的更清晰控制,而后者的優(yōu)勢是實現(xiàn)起來更簡單。這篇論文主要關(guān)注的是前者。


表 7、8、9 報告了客觀和主觀評估結(jié)果。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


從表 7 和 8 可以看出強化學(xué)習(xí)所帶來的好處。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


從表 9 則可以看到,相比于上面的說話人微調(diào)式 Seed-TTS_SFT 模型,Seed-TTS_{RL-SER} 的情緒可控性下降了,但相比于 Seed-TTS_ICL,使用強化學(xué)習(xí)能大幅提升在各種情緒上的情感控制準(zhǔn)確度。下面是一組示例:


prompt:


Seed-TTS示例7


喜:


Seed-TTS示例8


怒:


Seed-TTS示例9


哀:https://bytedancespeech.github.io/seedtts_tech_report/audios/RL_ICL_samples/-5282986181050362834.wav

驚:https://bytedancespeech.github.io/seedtts_tech_report/audios/RL_ICL_samples/-7183650758233635696.wav


完全基于擴散的語音生成


為了進(jìn)一步理解語言建模和擴散模型這兩種建模方法的特性,該團(tuán)隊提出了一種完全基于擴散的 Seed-TTS 模型變體,記為 Seed-TTS_DiT。在這種變體中,移除了擴散模型和聲學(xué) token 化器之間的依賴關(guān)系,這樣一來擴散模型就需要直接基于輸入文本將高斯噪聲轉(zhuǎn)換成聲碼器的隱含表征。


對于這種修改版的 Seed-TTS_DiT 設(shè)計,他們在擴散模型中直接采用了端到端的處理方式。該模型不會估計音素層面的持續(xù)時間,而是事先估計生成語音的總持續(xù)時間。然后優(yōu)化該模型,以估計音頻和文本之間的局部對齊。通過這種方式,Seed-TTS_DiT 可以動態(tài)調(diào)整每個音素的持續(xù)時間,從而得到高度自然的語音。


結(jié)果發(fā)現(xiàn),只要得到適當(dāng)訓(xùn)練,Seed-TTS_DiT 就能預(yù)測輸入語音的合適總持續(xù)時間。但是,該團(tuán)隊并未選擇以這種方式訓(xùn)練,而是選擇直接為模型提供總持續(xù)時間,這能實現(xiàn)一些可用于內(nèi)容編輯和語速編輯的額外性質(zhì)。為此,在訓(xùn)練時,向模型提供音頻 prompt、目標(biāo)文本和一段有總持續(xù)時間的高斯噪聲片段,然后預(yù)測有同樣總持續(xù)時間的生成語音的隱含表征,之后再由聲碼器將該表征轉(zhuǎn)換成波形。


相比于采樣下一 token 語言建模的方法,這種純粹的擴散模型的工作流程更簡單。Seed-TTS_DiT 是一種非流式模型,很自然支持內(nèi)容編輯應(yīng)用,如圖 5 所示。話雖如此,語言建模方法也有自己的優(yōu)勢:流式處理以及能夠整合基于文本的語言模型。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


該團(tuán)隊使用之前的測試集評估了 Seed-TTS_DiT 的零樣本 TTS 能力,評估結(jié)果見表 10。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


可以看到,相比于 Seed-TTS_ICL,完全基于擴散的方法在 SIM 上性能更優(yōu),而在 WER 指標(biāo)上的表現(xiàn)也相差不大。


內(nèi)容編輯和語速編輯。該團(tuán)隊進(jìn)一步評估了 Seed-TTS_ICL 在兩個語音編輯任務(wù)上的能力:內(nèi)容編輯和語速編輯。


圖 6 和 7 給出了評估結(jié)果。


字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯-AI.x社區(qū)


可以明顯看出,在內(nèi)容編輯時,Seed-TTS_DiT 在不同的掩蔽率下表現(xiàn)很穩(wěn)健。而 Seed-TTS_DiT 也確實能在不同語速下合成高說話人相似度的語音,但當(dāng)語速過快時,WER 指標(biāo)會變差一些。


最后展示一個內(nèi)容編輯的示例:


源文本:對,這就是我,萬人敬仰的太乙真人,雖然有點嬰兒肥,但也掩不住我逼人的帥氣。

目標(biāo)文本:對,這就是我,眾人尊崇的太白金星,雖然有點娃娃臉,但也遮不住我迷人的魅力。


源語音:https://bytedancespeech.github.io/seedtts_tech_report/audios/DITEdit_samples/source/-40165564411515767.wav


編輯后的語音:https://bytedancespeech.github.io/seedtts_tech_report/audios/DITEdit_samples/generated/5710927739229863116.wav


本文轉(zhuǎn)自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/BZFtJJA5UMmHygO2trvoaw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦