一個(gè)模型解決兩種模態(tài),谷歌AudioPaLM一統(tǒng)「文本+音頻」:能說(shuō)還能聽(tīng)的大模型
大型語(yǔ)言模型以其強(qiáng)大的性能及通用性,帶動(dòng)了一批多模態(tài)的大模型開(kāi)發(fā),如音頻、視頻等。
語(yǔ)言模型的底層架構(gòu)大多是基于Transformer,且以解碼器為主,所以無(wú)需過(guò)多調(diào)整模型架構(gòu)即可適應(yīng)其他序列模態(tài)。
最近,谷歌發(fā)布了一個(gè)統(tǒng)一的語(yǔ)音-文本模型AudioPaLM,將文本和音頻的token合并為一個(gè)多模態(tài)聯(lián)合詞匯表,再結(jié)合不同任務(wù)描述標(biāo)記,可以實(shí)現(xiàn)在任意語(yǔ)音和文本的混合任務(wù)上訓(xùn)練decoder-only模型,包括語(yǔ)音識(shí)別(ASR)、文本到語(yǔ)音合成、自動(dòng)語(yǔ)音翻譯(AST)和語(yǔ)音到語(yǔ)音翻譯(S2ST)等,將傳統(tǒng)上由異質(zhì)模型解決的任務(wù)統(tǒng)一到一個(gè)架構(gòu)和訓(xùn)練流程中。
圖片
論文鏈接:https://arxiv.org/pdf/2306.12925.pdf
示例鏈接:https://google-research.github.io/seanet/audiopalm/examples/
此外,由于AudioPaLM的底層架構(gòu)是一個(gè)大型的Transformer模型,可以用對(duì)文本進(jìn)行預(yù)訓(xùn)練的大型語(yǔ)言模型的權(quán)重來(lái)初始化,可以從PaLM等模型的語(yǔ)言學(xué)知識(shí)中受益。
從實(shí)現(xiàn)效果來(lái)看,AudioPaLM在AST和S2ST基準(zhǔn)上取得了最先進(jìn)的結(jié)果,并且在ASR基準(zhǔn)上的性能也和其他模型不相上下。
通過(guò)利用AudioLM的音頻提示,AudioPaLM模型能夠?qū)π碌恼f(shuō)話人語(yǔ)音遷移來(lái)執(zhí)行S2ST,在語(yǔ)音質(zhì)量和語(yǔ)音保存方面超過(guò)了現(xiàn)有的方法。
AudioPaLM模型也具有zero-shot的能力,可以對(duì)訓(xùn)練中未見(jiàn)過(guò)的語(yǔ)音輸入/目標(biāo)語(yǔ)言組合執(zhí)行AST任務(wù)。
AudioPaLM
研究人員使用一個(gè)decoder-only Transformer模型對(duì)文本和語(yǔ)音的token進(jìn)行建模,其中文本和音頻在輸入到模型之間已經(jīng)進(jìn)行分詞,所以輸入只是一個(gè)整數(shù)序列,在輸出端再進(jìn)行反分詞(detokenized)操作返回給用戶。
圖片
音頻embedding及分詞
將音頻的原始波形轉(zhuǎn)換為token的過(guò)程中,包括從現(xiàn)有的語(yǔ)音表征模型中抽取為嵌入(embedding),并將嵌入離散為一組有限的音頻token
之前的工作中從w2v-BERT模型中提取嵌入,并通過(guò)k-means將其量化,而這篇論文中,研究人員試驗(yàn)了三種方案:
w2v-BERT:使用在多語(yǔ)言數(shù)據(jù)上訓(xùn)練的w2v-BERT模型,而非純英語(yǔ);并且在進(jìn)行k-means聚類之前沒(méi)有進(jìn)行歸一化處理,否則會(huì)導(dǎo)致在多語(yǔ)言環(huán)境中性能下降。然后以25Hz的速率生成token,詞表大小為1024
USM-v1:使用性能更強(qiáng)的、20億參數(shù)的通用語(yǔ)音模型(USM)編碼器執(zhí)行類似的操作,并從中間層提取嵌入;
USM-v2:用輔助ASR損失來(lái)訓(xùn)練,并進(jìn)一步微調(diào)以支持多語(yǔ)言。
修改text-only解碼器
在Transfomrer解碼器結(jié)構(gòu)中,除了輸入和最后的softmax輸出層外,都不涉及到建模token的數(shù)量,并且在PaLM架構(gòu)中,輸入和輸出矩陣的權(quán)重變量時(shí)共享的,即互為轉(zhuǎn)置。
所以只需要將嵌入矩陣的大小從(t × m)擴(kuò)展到(t+a)×m即可把一個(gè)純文本模型變成一個(gè)既能模擬文本又能模擬音頻的模型,其中t是文本詞表的大小,a是音頻詞表的大小,m是嵌入維度。
為了利用預(yù)訓(xùn)練的文本模型,研究人員通過(guò)在嵌入矩陣中添加新的行來(lái)改變現(xiàn)有模型的checkpoint。
具體的實(shí)現(xiàn)為,前t個(gè)token對(duì)應(yīng)于SentencePiece文本標(biāo)記,后面a個(gè)token代表音頻標(biāo)記,雖然文本嵌入式復(fù)用的預(yù)訓(xùn)練權(quán)重,但音頻嵌入是全新初始化的,必須進(jìn)行訓(xùn)練。
實(shí)驗(yàn)結(jié)果顯示,與從頭重新訓(xùn)練相比,基于文本預(yù)訓(xùn)練模型對(duì)語(yǔ)音和文本的多模態(tài)任務(wù)性能提升非常有利。
音頻token解碼為原生音頻
為了從音頻token中合成音頻波形,研究人員試驗(yàn)了兩種不同的方法:
1. 類似AudioLM模型的自回歸解碼
2. 類似SoundStorm模型的非自回歸解碼
這兩種方法都需要先生成SoundStream token,再用卷積解碼器將其轉(zhuǎn)換為音頻波形。
研究人員在Multilingual LibriSpeech上進(jìn)行訓(xùn)練,語(yǔ)音條件為3秒長(zhǎng)的語(yǔ)音樣本,同時(shí)表示為音頻token 和SoundStream token
通過(guò)提供部分原始輸入語(yǔ)音作為語(yǔ)音條件,模型能夠在將說(shuō)話人的語(yǔ)音翻譯成不同語(yǔ)言時(shí)保留原始說(shuō)話人的語(yǔ)音,當(dāng)原始音頻短于3秒時(shí),通過(guò)重復(fù)播放來(lái)填充空白時(shí)間。
訓(xùn)練任務(wù)
使用到的訓(xùn)練數(shù)據(jù)集均為speech-text數(shù)據(jù):
1. 音頻Audio:源語(yǔ)言的語(yǔ)音(speech)
2. 轉(zhuǎn)錄Transcript:音頻數(shù)據(jù)中語(yǔ)音的轉(zhuǎn)錄
3. 翻譯音頻Translated Audio:音頻中語(yǔ)音的口語(yǔ)翻譯
4. 翻譯轉(zhuǎn)錄Translated Transcript:音頻中語(yǔ)音的書(shū)面翻譯
組件任務(wù)包括:
1. ASR(自動(dòng)語(yǔ)音識(shí)別):轉(zhuǎn)錄音頻以獲得轉(zhuǎn)錄文本
2. AST(自動(dòng)語(yǔ)音翻譯):翻譯音頻以獲得翻譯后的轉(zhuǎn)錄文本
3. S2ST(語(yǔ)音到語(yǔ)音翻譯):翻譯音頻以獲得翻譯后的音頻
4. TTS(文本到語(yǔ)音):讀出轉(zhuǎn)錄的內(nèi)容,以獲得音頻。
5. MT(文本到文本的機(jī)器翻譯):翻譯轉(zhuǎn)錄以獲得翻譯后的轉(zhuǎn)錄文本
一個(gè)數(shù)據(jù)集可能會(huì)用于多個(gè)任務(wù),所以研究人員選擇向模型發(fā)出信號(hào),告訴模型應(yīng)該對(duì)給定的輸入執(zhí)行哪項(xiàng)任務(wù),具體方法為:在輸入前加上一個(gè)標(biāo)簽,指定任務(wù)和輸入語(yǔ)言的英文名稱,輸出語(yǔ)言也可以選擇。
例如,想要模型對(duì)法語(yǔ)語(yǔ)料進(jìn)行ASR時(shí),分詞后的音頻輸入前面要加上標(biāo)簽[ASR French];要在英語(yǔ)中執(zhí)行TTS任務(wù),文本前面需要加上[TTS English];要執(zhí)行從英語(yǔ)到法語(yǔ)的S2ST任務(wù),分詞后的英語(yǔ)音頻會(huì)在前面加上[S2ST English French]
訓(xùn)練混合
研究人員使用SeqIO庫(kù)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行混合,對(duì)較大的數(shù)據(jù)集進(jìn)行權(quán)重降低。
圖片
實(shí)驗(yàn)部分
圖片
AudioPaLM在AST和S2ST任務(wù)上超過(guò)了其他基線模型,在ASR上性能雖然不是最優(yōu),但效果也非常好。
除了評(píng)估語(yǔ)音內(nèi)容的翻譯質(zhì)量外,研究人員還評(píng)估了AudioPaLM生成的語(yǔ)言是否質(zhì)量足夠高,并且在翻譯成不同語(yǔ)言時(shí)能否保留說(shuō)話人的聲音。
客觀指標(biāo)
使用類似于無(wú)參考MOS估計(jì)器,給定一個(gè)音頻樣本,在1到5的范圍內(nèi)提供一個(gè)感知音頻質(zhì)量估計(jì)。
為了測(cè)量跨語(yǔ)言的語(yǔ)音遷移質(zhì)量,研究人員使用的現(xiàn)成的說(shuō)話人驗(yàn)證模型,并計(jì)算源(用SoundStream編碼/解碼)和翻譯語(yǔ)音的嵌入之間的余弦相似度;還衡量了從源音頻到目標(biāo)音頻的聲學(xué)特性(錄音條件、背景噪音)。
主觀評(píng)估
研究人員進(jìn)行了兩項(xiàng)獨(dú)立研究來(lái)評(píng)估生成的語(yǔ)音質(zhì)量和語(yǔ)音相似度,兩項(xiàng)研究中都使用相同的樣本集合。
由于語(yǔ)料的質(zhì)量參差不齊,有些含有響亮的重疊語(yǔ)音(例如,背景中播放的電視節(jié)目或歌曲)或極強(qiáng)的噪音(例如,衣服與麥克風(fēng)摩擦),類似的失真效果使得人類評(píng)分員的工作變得復(fù)雜,因此研究人員決定通過(guò)只選擇MOS估計(jì)值至少為3.0的輸入進(jìn)行預(yù)過(guò)濾。
評(píng)分以5級(jí)量表提供,從1(質(zhì)量差或完全不同的聲音)到5(質(zhì)量好,相同的聲音)。
圖片
從結(jié)果中可以觀察到AudioPaLM在客觀和主觀測(cè)量中,在音頻質(zhì)量和語(yǔ)音相似度方面都明顯優(yōu)于基線Translatotron 2系統(tǒng),并且AudioPaLM比CVSS-T中的真實(shí)合成錄音具有更高的質(zhì)量和更好的語(yǔ)音相似度,在大多數(shù)指標(biāo)上有比較大提升。
研究人員還對(duì)比了高資源組和低資源組(法語(yǔ)、德語(yǔ)、西班牙語(yǔ)和加泰羅尼亞語(yǔ)與其他語(yǔ)言)的系統(tǒng),發(fā)現(xiàn)這些組之間的指標(biāo)沒(méi)有明顯差異。




































