偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一個(gè)模型解決兩種模態(tài),谷歌AudioPaLM一統(tǒng)「文本+音頻」:能說(shuō)還能聽(tīng)的大模型

人工智能 新聞
一個(gè)模型處理多模態(tài),谷歌用AudioPaLM給出答案。

大型語(yǔ)言模型以其強(qiáng)大的性能及通用性,帶動(dòng)了一批多模態(tài)的大模型開(kāi)發(fā),如音頻、視頻等。

語(yǔ)言模型的底層架構(gòu)大多是基于Transformer,且以解碼器為主,所以無(wú)需過(guò)多調(diào)整模型架構(gòu)即可適應(yīng)其他序列模態(tài)。

最近,谷歌發(fā)布了一個(gè)統(tǒng)一的語(yǔ)音-文本模型AudioPaLM,將文本和音頻的token合并為一個(gè)多模態(tài)聯(lián)合詞匯表,再結(jié)合不同任務(wù)描述標(biāo)記,可以實(shí)現(xiàn)在任意語(yǔ)音和文本的混合任務(wù)上訓(xùn)練decoder-only模型,包括語(yǔ)音識(shí)別(ASR)、文本到語(yǔ)音合成、自動(dòng)語(yǔ)音翻譯(AST)和語(yǔ)音到語(yǔ)音翻譯(S2ST)等,將傳統(tǒng)上由異質(zhì)模型解決的任務(wù)統(tǒng)一到一個(gè)架構(gòu)和訓(xùn)練流程中。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2306.12925.pdf

示例鏈接:https://google-research.github.io/seanet/audiopalm/examples/

此外,由于AudioPaLM的底層架構(gòu)是一個(gè)大型的Transformer模型,可以用對(duì)文本進(jìn)行預(yù)訓(xùn)練的大型語(yǔ)言模型的權(quán)重來(lái)初始化,可以從PaLM等模型的語(yǔ)言學(xué)知識(shí)中受益。

從實(shí)現(xiàn)效果來(lái)看,AudioPaLM在AST和S2ST基準(zhǔn)上取得了最先進(jìn)的結(jié)果,并且在ASR基準(zhǔn)上的性能也和其他模型不相上下。

通過(guò)利用AudioLM的音頻提示,AudioPaLM模型能夠?qū)π碌恼f(shuō)話人語(yǔ)音遷移來(lái)執(zhí)行S2ST,在語(yǔ)音質(zhì)量和語(yǔ)音保存方面超過(guò)了現(xiàn)有的方法。

AudioPaLM模型也具有zero-shot的能力,可以對(duì)訓(xùn)練中未見(jiàn)過(guò)的語(yǔ)音輸入/目標(biāo)語(yǔ)言組合執(zhí)行AST任務(wù)。

AudioPaLM

研究人員使用一個(gè)decoder-only Transformer模型對(duì)文本和語(yǔ)音的token進(jìn)行建模,其中文本和音頻在輸入到模型之間已經(jīng)進(jìn)行分詞,所以輸入只是一個(gè)整數(shù)序列,在輸出端再進(jìn)行反分詞(detokenized)操作返回給用戶。

圖片圖片

音頻embedding及分詞

將音頻的原始波形轉(zhuǎn)換為token的過(guò)程中,包括從現(xiàn)有的語(yǔ)音表征模型中抽取為嵌入(embedding),并將嵌入離散為一組有限的音頻token

之前的工作中從w2v-BERT模型中提取嵌入,并通過(guò)k-means將其量化,而這篇論文中,研究人員試驗(yàn)了三種方案:

w2v-BERT:使用在多語(yǔ)言數(shù)據(jù)上訓(xùn)練的w2v-BERT模型,而非純英語(yǔ);并且在進(jìn)行k-means聚類之前沒(méi)有進(jìn)行歸一化處理,否則會(huì)導(dǎo)致在多語(yǔ)言環(huán)境中性能下降。然后以25Hz的速率生成token,詞表大小為1024

USM-v1:使用性能更強(qiáng)的、20億參數(shù)的通用語(yǔ)音模型(USM)編碼器執(zhí)行類似的操作,并從中間層提取嵌入;

USM-v2:用輔助ASR損失來(lái)訓(xùn)練,并進(jìn)一步微調(diào)以支持多語(yǔ)言。

修改text-only解碼器

在Transfomrer解碼器結(jié)構(gòu)中,除了輸入和最后的softmax輸出層外,都不涉及到建模token的數(shù)量,并且在PaLM架構(gòu)中,輸入和輸出矩陣的權(quán)重變量時(shí)共享的,即互為轉(zhuǎn)置。

所以只需要將嵌入矩陣的大小從(t × m)擴(kuò)展到(t+a)×m即可把一個(gè)純文本模型變成一個(gè)既能模擬文本又能模擬音頻的模型,其中t是文本詞表的大小,a是音頻詞表的大小,m是嵌入維度。

為了利用預(yù)訓(xùn)練的文本模型,研究人員通過(guò)在嵌入矩陣中添加新的行來(lái)改變現(xiàn)有模型的checkpoint。

具體的實(shí)現(xiàn)為,前t個(gè)token對(duì)應(yīng)于SentencePiece文本標(biāo)記,后面a個(gè)token代表音頻標(biāo)記,雖然文本嵌入式復(fù)用的預(yù)訓(xùn)練權(quán)重,但音頻嵌入是全新初始化的,必須進(jìn)行訓(xùn)練。

實(shí)驗(yàn)結(jié)果顯示,與從頭重新訓(xùn)練相比,基于文本預(yù)訓(xùn)練模型對(duì)語(yǔ)音和文本的多模態(tài)任務(wù)性能提升非常有利。

音頻token解碼為原生音頻

為了從音頻token中合成音頻波形,研究人員試驗(yàn)了兩種不同的方法:

1. 類似AudioLM模型的自回歸解碼

2. 類似SoundStorm模型的非自回歸解碼

這兩種方法都需要先生成SoundStream token,再用卷積解碼器將其轉(zhuǎn)換為音頻波形。

研究人員在Multilingual LibriSpeech上進(jìn)行訓(xùn)練,語(yǔ)音條件為3秒長(zhǎng)的語(yǔ)音樣本,同時(shí)表示為音頻token 和SoundStream token

通過(guò)提供部分原始輸入語(yǔ)音作為語(yǔ)音條件,模型能夠在將說(shuō)話人的語(yǔ)音翻譯成不同語(yǔ)言時(shí)保留原始說(shuō)話人的語(yǔ)音,當(dāng)原始音頻短于3秒時(shí),通過(guò)重復(fù)播放來(lái)填充空白時(shí)間。

訓(xùn)練任務(wù)

使用到的訓(xùn)練數(shù)據(jù)集均為speech-text數(shù)據(jù):

1. 音頻Audio:源語(yǔ)言的語(yǔ)音(speech)

2. 轉(zhuǎn)錄Transcript:音頻數(shù)據(jù)中語(yǔ)音的轉(zhuǎn)錄

3. 翻譯音頻Translated Audio:音頻中語(yǔ)音的口語(yǔ)翻譯

4. 翻譯轉(zhuǎn)錄Translated Transcript:音頻中語(yǔ)音的書(shū)面翻譯

組件任務(wù)包括:

1. ASR(自動(dòng)語(yǔ)音識(shí)別):轉(zhuǎn)錄音頻以獲得轉(zhuǎn)錄文本

2. AST(自動(dòng)語(yǔ)音翻譯):翻譯音頻以獲得翻譯后的轉(zhuǎn)錄文本

3. S2ST(語(yǔ)音到語(yǔ)音翻譯):翻譯音頻以獲得翻譯后的音頻

4. TTS(文本到語(yǔ)音):讀出轉(zhuǎn)錄的內(nèi)容,以獲得音頻。

5. MT(文本到文本的機(jī)器翻譯):翻譯轉(zhuǎn)錄以獲得翻譯后的轉(zhuǎn)錄文本

一個(gè)數(shù)據(jù)集可能會(huì)用于多個(gè)任務(wù),所以研究人員選擇向模型發(fā)出信號(hào),告訴模型應(yīng)該對(duì)給定的輸入執(zhí)行哪項(xiàng)任務(wù),具體方法為:在輸入前加上一個(gè)標(biāo)簽,指定任務(wù)和輸入語(yǔ)言的英文名稱,輸出語(yǔ)言也可以選擇。

例如,想要模型對(duì)法語(yǔ)語(yǔ)料進(jìn)行ASR時(shí),分詞后的音頻輸入前面要加上標(biāo)簽[ASR French];要在英語(yǔ)中執(zhí)行TTS任務(wù),文本前面需要加上[TTS English];要執(zhí)行從英語(yǔ)到法語(yǔ)的S2ST任務(wù),分詞后的英語(yǔ)音頻會(huì)在前面加上[S2ST English French]

訓(xùn)練混合

研究人員使用SeqIO庫(kù)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行混合,對(duì)較大的數(shù)據(jù)集進(jìn)行權(quán)重降低。

圖片圖片

實(shí)驗(yàn)部分

圖片圖片

AudioPaLM在AST和S2ST任務(wù)上超過(guò)了其他基線模型,在ASR上性能雖然不是最優(yōu),但效果也非常好。

除了評(píng)估語(yǔ)音內(nèi)容的翻譯質(zhì)量外,研究人員還評(píng)估了AudioPaLM生成的語(yǔ)言是否質(zhì)量足夠高,并且在翻譯成不同語(yǔ)言時(shí)能否保留說(shuō)話人的聲音。

客觀指標(biāo)

使用類似于無(wú)參考MOS估計(jì)器,給定一個(gè)音頻樣本,在1到5的范圍內(nèi)提供一個(gè)感知音頻質(zhì)量估計(jì)。

為了測(cè)量跨語(yǔ)言的語(yǔ)音遷移質(zhì)量,研究人員使用的現(xiàn)成的說(shuō)話人驗(yàn)證模型,并計(jì)算源(用SoundStream編碼/解碼)和翻譯語(yǔ)音的嵌入之間的余弦相似度;還衡量了從源音頻到目標(biāo)音頻的聲學(xué)特性(錄音條件、背景噪音)。

主觀評(píng)估

研究人員進(jìn)行了兩項(xiàng)獨(dú)立研究來(lái)評(píng)估生成的語(yǔ)音質(zhì)量和語(yǔ)音相似度,兩項(xiàng)研究中都使用相同的樣本集合。

由于語(yǔ)料的質(zhì)量參差不齊,有些含有響亮的重疊語(yǔ)音(例如,背景中播放的電視節(jié)目或歌曲)或極強(qiáng)的噪音(例如,衣服與麥克風(fēng)摩擦),類似的失真效果使得人類評(píng)分員的工作變得復(fù)雜,因此研究人員決定通過(guò)只選擇MOS估計(jì)值至少為3.0的輸入進(jìn)行預(yù)過(guò)濾。

評(píng)分以5級(jí)量表提供,從1(質(zhì)量差或完全不同的聲音)到5(質(zhì)量好,相同的聲音)。

圖片圖片

從結(jié)果中可以觀察到AudioPaLM在客觀和主觀測(cè)量中,在音頻質(zhì)量和語(yǔ)音相似度方面都明顯優(yōu)于基線Translatotron 2系統(tǒng),并且AudioPaLM比CVSS-T中的真實(shí)合成錄音具有更高的質(zhì)量和更好的語(yǔ)音相似度,在大多數(shù)指標(biāo)上有比較大提升。

研究人員還對(duì)比了高資源組和低資源組(法語(yǔ)、德語(yǔ)、西班牙語(yǔ)和加泰羅尼亞語(yǔ)與其他語(yǔ)言)的系統(tǒng),發(fā)現(xiàn)這些組之間的指標(biāo)沒(méi)有明顯差異。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-03-13 10:18:42

2023-07-22 13:17:33

人工智能框架

2024-01-24 09:24:19

自動(dòng)駕駛算法

2023-06-05 10:09:03

研究人工智能

2023-05-10 14:58:06

開(kāi)源模型

2024-08-26 07:40:00

AI訓(xùn)練

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2023-08-24 08:02:19

冪等性API請(qǐng)求

2024-03-13 10:43:28

模型訓(xùn)練

2017-12-15 17:14:10

云端

2025-07-30 09:14:00

2024-10-29 14:40:00

圖像生成模型

2025-07-16 09:18:06

2021-11-19 10:13:01

模型人工智能計(jì)算

2025-05-15 14:37:17

AI生成模型

2024-03-21 14:18:00

模型感知

2024-04-23 13:38:00

AI數(shù)據(jù)

2025-02-26 07:00:00

Go 語(yǔ)言Ollama 模型dubbogo

2024-08-12 15:55:51

2023-04-25 17:06:38

視覺(jué)任務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)