偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="kzuz6"><track id="kzuz6"></track></cite>

<legend id="kzuz6"><track id="kzuz6"><dfn id="kzuz6"></dfn></track></legend>

<sub id="kzuz6"></sub>

<cite id="kzuz6"><track id="kzuz6"></track></cite>

<sub id="kzuz6"><p id="kzuz6"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

一個模型解決兩種模態(tài)，谷歌AudioPaLM一統(tǒng)「文本+音頻」：能說還能聽的大模型

作者：新智元 2023-06-29 17:46:31

人工智能新聞

一個模型處理多模態(tài)，谷歌用AudioPaLM給出答案。

大型語言模型以其強大的性能及通用性，帶動了一批多模態(tài)的大模型開發(fā)，如音頻、視頻等。

語言模型的底層架構(gòu)大多是基于Transformer，且以解碼器為主，所以無需過多調(diào)整模型架構(gòu)即可適應其他序列模態(tài)。

最近，谷歌發(fā)布了一個統(tǒng)一的語音-文本模型AudioPaLM，將文本和音頻的token合并為一個多模態(tài)聯(lián)合詞匯表，再結(jié)合不同任務描述標記，可以實現(xiàn)在任意語音和文本的混合任務上訓練decoder-only模型，包括語音識別（ASR）、文本到語音合成、自動語音翻譯（AST）和語音到語音翻譯（S2ST）等，將傳統(tǒng)上由異質(zhì)模型解決的任務統(tǒng)一到一個架構(gòu)和訓練流程中。

圖片

論文鏈接：https://arxiv.org/pdf/2306.12925.pdf

示例鏈接：https://google-research.github.io/seanet/audiopalm/examples/

此外，由于AudioPaLM的底層架構(gòu)是一個大型的Transformer模型，可以用對文本進行預訓練的大型語言模型的權(quán)重來初始化，可以從PaLM等模型的語言學知識中受益。

從實現(xiàn)效果來看，AudioPaLM在AST和S2ST基準上取得了最先進的結(jié)果，并且在ASR基準上的性能也和其他模型不相上下。

通過利用AudioLM的音頻提示，AudioPaLM模型能夠?qū)π碌恼f話人語音遷移來執(zhí)行S2ST，在語音質(zhì)量和語音保存方面超過了現(xiàn)有的方法。

AudioPaLM模型也具有zero-shot的能力，可以對訓練中未見過的語音輸入/目標語言組合執(zhí)行AST任務。

AudioPaLM

研究人員使用一個decoder-only Transformer模型對文本和語音的token進行建模，其中文本和音頻在輸入到模型之間已經(jīng)進行分詞，所以輸入只是一個整數(shù)序列，在輸出端再進行反分詞（detokenized）操作返回給用戶。

圖片

音頻embedding及分詞

將音頻的原始波形轉(zhuǎn)換為token的過程中，包括從現(xiàn)有的語音表征模型中抽取為嵌入（embedding），并將嵌入離散為一組有限的音頻token

之前的工作中從w2v-BERT模型中提取嵌入，并通過k-means將其量化，而這篇論文中，研究人員試驗了三種方案：

w2v-BERT：使用在多語言數(shù)據(jù)上訓練的w2v-BERT模型，而非純英語；并且在進行k-means聚類之前沒有進行歸一化處理，否則會導致在多語言環(huán)境中性能下降。然后以25Hz的速率生成token，詞表大小為1024

USM-v1：使用性能更強的、20億參數(shù)的通用語音模型（USM）編碼器執(zhí)行類似的操作，并從中間層提取嵌入；

USM-v2：用輔助ASR損失來訓練，并進一步微調(diào)以支持多語言。

修改text-only解碼器

在Transfomrer解碼器結(jié)構(gòu)中，除了輸入和最后的softmax輸出層外，都不涉及到建模token的數(shù)量，并且在PaLM架構(gòu)中，輸入和輸出矩陣的權(quán)重變量時共享的，即互為轉(zhuǎn)置。

所以只需要將嵌入矩陣的大小從（t × m）擴展到（t+a）×m即可把一個純文本模型變成一個既能模擬文本又能模擬音頻的模型，其中t是文本詞表的大小，a是音頻詞表的大小，m是嵌入維度。

為了利用預訓練的文本模型，研究人員通過在嵌入矩陣中添加新的行來改變現(xiàn)有模型的checkpoint。

具體的實現(xiàn)為，前t個token對應于SentencePiece文本標記，后面a個token代表音頻標記，雖然文本嵌入式復用的預訓練權(quán)重，但音頻嵌入是全新初始化的，必須進行訓練。

實驗結(jié)果顯示，與從頭重新訓練相比，基于文本預訓練模型對語音和文本的多模態(tài)任務性能提升非常有利。

音頻token解碼為原生音頻

為了從音頻token中合成音頻波形，研究人員試驗了兩種不同的方法：

1. 類似AudioLM模型的自回歸解碼

2. 類似SoundStorm模型的非自回歸解碼

這兩種方法都需要先生成SoundStream token，再用卷積解碼器將其轉(zhuǎn)換為音頻波形。

研究人員在Multilingual LibriSpeech上進行訓練，語音條件為3秒長的語音樣本，同時表示為音頻token 和SoundStream token

通過提供部分原始輸入語音作為語音條件，模型能夠在將說話人的語音翻譯成不同語言時保留原始說話人的語音，當原始音頻短于3秒時，通過重復播放來填充空白時間。

訓練任務

使用到的訓練數(shù)據(jù)集均為speech-text數(shù)據(jù)：

1. 音頻Audio：源語言的語音（speech）

2. 轉(zhuǎn)錄Transcript：音頻數(shù)據(jù)中語音的轉(zhuǎn)錄

3. 翻譯音頻Translated Audio：音頻中語音的口語翻譯

4. 翻譯轉(zhuǎn)錄Translated Transcript：音頻中語音的書面翻譯

組件任務包括：

1. ASR（自動語音識別）：轉(zhuǎn)錄音頻以獲得轉(zhuǎn)錄文本

2. AST（自動語音翻譯）：翻譯音頻以獲得翻譯后的轉(zhuǎn)錄文本

3. S2ST（語音到語音翻譯）：翻譯音頻以獲得翻譯后的音頻

4. TTS（文本到語音）：讀出轉(zhuǎn)錄的內(nèi)容，以獲得音頻。

5. MT（文本到文本的機器翻譯）：翻譯轉(zhuǎn)錄以獲得翻譯后的轉(zhuǎn)錄文本

一個數(shù)據(jù)集可能會用于多個任務，所以研究人員選擇向模型發(fā)出信號，告訴模型應該對給定的輸入執(zhí)行哪項任務，具體方法為：在輸入前加上一個標簽，指定任務和輸入語言的英文名稱，輸出語言也可以選擇。

例如，想要模型對法語語料進行ASR時，分詞后的音頻輸入前面要加上標簽[ASR French]；要在英語中執(zhí)行TTS任務，文本前面需要加上[TTS English]；要執(zhí)行從英語到法語的S2ST任務，分詞后的英語音頻會在前面加上[S2ST English French]

訓練混合

研究人員使用SeqIO庫對訓練數(shù)據(jù)進行混合，對較大的數(shù)據(jù)集進行權(quán)重降低。

圖片

實驗部分

圖片

AudioPaLM在AST和S2ST任務上超過了其他基線模型，在ASR上性能雖然不是最優(yōu)，但效果也非常好。

除了評估語音內(nèi)容的翻譯質(zhì)量外，研究人員還評估了AudioPaLM生成的語言是否質(zhì)量足夠高，并且在翻譯成不同語言時能否保留說話人的聲音。

客觀指標

使用類似于無參考MOS估計器，給定一個音頻樣本，在1到5的范圍內(nèi)提供一個感知音頻質(zhì)量估計。

為了測量跨語言的語音遷移質(zhì)量，研究人員使用的現(xiàn)成的說話人驗證模型，并計算源（用SoundStream編碼/解碼）和翻譯語音的嵌入之間的余弦相似度；還衡量了從源音頻到目標音頻的聲學特性（錄音條件、背景噪音）。

主觀評估

研究人員進行了兩項獨立研究來評估生成的語音質(zhì)量和語音相似度，兩項研究中都使用相同的樣本集合。

由于語料的質(zhì)量參差不齊，有些含有響亮的重疊語音（例如，背景中播放的電視節(jié)目或歌曲）或極強的噪音（例如，衣服與麥克風摩擦），類似的失真效果使得人類評分員的工作變得復雜，因此研究人員決定通過只選擇MOS估計值至少為3.0的輸入進行預過濾。

評分以5級量表提供，從1（質(zhì)量差或完全不同的聲音）到5（質(zhì)量好，相同的聲音）。

圖片

從結(jié)果中可以觀察到AudioPaLM在客觀和主觀測量中，在音頻質(zhì)量和語音相似度方面都明顯優(yōu)于基線Translatotron 2系統(tǒng)，并且AudioPaLM比CVSS-T中的真實合成錄音具有更高的質(zhì)量和更好的語音相似度，在大多數(shù)指標上有比較大提升。

研究人員還對比了高資源組和低資源組（法語、德語、西班牙語和加泰羅尼亞語與其他語言）的系統(tǒng)，發(fā)現(xiàn)這些組之間的指標沒有明顯差異。

責任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<p id="o1hs3"></p>