偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開(kāi)源模型、單卡訓(xùn)練,帶你了解爆火的文本指導(dǎo)音頻生成技術(shù)AudioLDM

人工智能 新聞
在模型開(kāi)源第二天,AudioLDM就沖上了 Hugging Face 熱搜榜第一名,并在一周內(nèi)進(jìn)入了 Hugging Face 最受喜歡的前 40 名應(yīng)用榜單。

給出一段文字,人工智能就可以生成音樂(lè),語(yǔ)音,各種音效,甚至是想象的聲音,比如黑洞和激光槍。最近由英國(guó)薩里大學(xué)和帝國(guó)理工學(xué)院聯(lián)合推出的AudioLDM,在發(fā)布之后迅速火遍國(guó)外,一周內(nèi)在推特上收獲了近 300 次的轉(zhuǎn)發(fā)和 1500 次的點(diǎn)贊。在模型開(kāi)源第二天,AudioLDM就沖上了 Hugging Face 熱搜榜第一名,并在一周內(nèi)進(jìn)入了 Hugging Face 最受喜歡的前 40 名應(yīng)用榜單(共約 25000),也迅速出現(xiàn)了很多基于 AudioLDM 的衍生工作。

AudioLDM 模型有如下幾個(gè)亮點(diǎn):

  • 首個(gè)同時(shí)可以從文本生成音樂(lè),語(yǔ)音和音效的開(kāi)源模型。
  • 由學(xué)術(shù)界開(kāi)發(fā),用更少的數(shù)據(jù),單個(gè) GPU,以及更小的模型,實(shí)現(xiàn)了目前最好的效果。
  • 提出用自監(jiān)督的方式訓(xùn)練生成模型,使文本指導(dǎo)音頻生成不再受限于(文本-音頻)數(shù)據(jù)對(duì)缺失的問(wèn)題。
  • 模型在不做額外訓(xùn)練的情況下(zero-shot),可以實(shí)現(xiàn)音頻風(fēng)格的遷移,音頻缺失填充,和音頻超分辨率。

圖片

  • 項(xiàng)目主頁(yè):https://audioldm.github.io/ 
  • 論文:https://arxiv.org/abs/2301.12503
  • 開(kāi)源代碼和模型:https://github.com/haoheliu/AudioLDM
  • Hugging Face Space:https://huggingface.co/spaces/haoheliu/audioldm-text-to-audio-generation

作者首先在一月二十七日發(fā)布了對(duì)模型的預(yù)告,展示了非常簡(jiǎn)單的一個(gè)文本:”A music made by []” (一段由【】生成的音樂(lè)) 去生成不同聲音的效果。視頻展示了由不同樂(lè)器,甚至是蚊子制作的音樂(lè),在推特上迅速受到了廣泛關(guān)注,播放次數(shù)超過(guò) 35.4K 次,被轉(zhuǎn)發(fā)了 130 余次。

圖片

隨后作者公開(kāi)了論文和一個(gè)新的視頻。這個(gè)視頻中作者展示了模型的大部分能力,以及和 ChatGPT 合作去生成聲音的效果。AudioLDM 甚至可以生成外太空的聲音。

隨后作者發(fā)布了論文,預(yù)訓(xùn)練的模型,和一個(gè)可玩的接口,點(diǎn)燃了推特網(wǎng)友們的熱情,在第二天就迅速登上了 Hugging Face 熱搜榜的第一名:

圖片

推特上這篇工作受到了廣泛的關(guān)注,業(yè)內(nèi)學(xué)者們紛紛轉(zhuǎn)發(fā)和評(píng)價(jià):

圖片

網(wǎng)友們使用 AudioLDM 生成了各種各樣的聲音。

比如有生成二次元貓娘打呼嚕的聲音:

圖片

以及鬼魂的聲音:

圖片

還有網(wǎng)友合成出了:“木乃伊的聲音,低頻,有一些痛苦的呻吟聲”。

甚至還有網(wǎng)友合成出了:“有旋律的放屁聲”。

不得不感嘆網(wǎng)友們想象力之豐富。

還有網(wǎng)友直接用 AudioLDM 生成了一系列的音樂(lè)專輯,有各種不同的風(fēng)格,包括爵士,放克,電子和古典等類型。一些音樂(lè)頗有創(chuàng)造性。

比如 “以宇宙和月球?yàn)橹黝}創(chuàng)作一個(gè)氛圍音樂(lè)”: 

圖片

以及 “使用未來(lái)的聲音創(chuàng)作一個(gè)音樂(lè)”:

圖片

感興趣的讀者可以訪問(wèn)這個(gè)音樂(lè)專輯網(wǎng)站:https://www.latent.store/albums

也有網(wǎng)友發(fā)揮想象力,結(jié)合圖片生成文字的模型和 AudioLDM,制作了一個(gè)圖片指導(dǎo)音效生成的應(yīng)用。

比如說(shuō)如果給 AudioLDM 這樣的文本:”A dog running in the water with a frisbee” (一個(gè)在水中奔跑并叼著飛盤的狗狗):

圖片

可以生成如下狗狗拍打水面的聲音。

甚至可以還原老照片中的聲音,比如下邊這個(gè)圖片:

圖片

在獲得 “A man and a woman sitting at a bar”(一個(gè)男人和一個(gè)女人坐在酒吧中)的文本后,模型可以生成如下的聲音,可以聽(tīng)到模糊的說(shuō)話聲,以及背景酒杯碰撞的聲音。

還有網(wǎng)友用 AudioLDM 生成了火焰狗狗的聲音,非常有趣。

作者還制作了一個(gè)視頻來(lái)展示模型在音效上的生成能力,展示了 AudioLDM 生成樣本接近音效庫(kù)的效果。

事實(shí)上文本生成音頻只是 AudioLDM 的能力的一部分,AudioLDM 同樣可以實(shí)現(xiàn)音色轉(zhuǎn)換、缺失填補(bǔ)和超分辨率。

下邊這兩張圖展示了(1)打擊樂(lè)到氛圍音樂(lè);以及(2)小號(hào)到小朋友的歌聲的音色轉(zhuǎn)換。

圖片

圖片

下邊是打擊樂(lè)到氛圍音樂(lè)(漸進(jìn)的轉(zhuǎn)換強(qiáng)度)的效果。

小號(hào)的聲音轉(zhuǎn)化為小朋友唱歌的聲音(漸進(jìn)的轉(zhuǎn)換強(qiáng)度)的效果。

下邊我們將會(huì)展示模型在音頻超分辨率,音頻缺失填充和發(fā)聲材料控制上的效果。由于文章篇幅有限,音頻主要用頻譜圖的方式展示,感興趣的讀者請(qǐng)前往 AudioLDM 的項(xiàng)目主頁(yè)查看:https://audioldm.github.io/ 

在音頻超分上,AudioLDM 的效果也是非常優(yōu)秀,相比之前的超分辨率模型,AudioLDM 是通用的超分辨率模型,不僅限于處理音樂(lè)和語(yǔ)音。

圖片

在音頻缺失填充上,AudioLDM 可以根據(jù)給定文本的不同填入不同的音頻內(nèi)容,并且在邊界處過(guò)渡比較自然。

此外,AudioLDM 還展現(xiàn)出了很強(qiáng)的控制能力,例如對(duì)聲學(xué)環(huán)境,音樂(lè)的情緒和速度,物體材料,音調(diào)高低以及先后順序等都有很強(qiáng)的控制能力,感興趣的讀者可以到 AudioLDM 的論文或項(xiàng)目主頁(yè)查看。

作者在文章中對(duì) AudioLDM 模型做了主觀打分和客觀指標(biāo)的評(píng)測(cè),結(jié)果顯示都可以明顯超過(guò)之前最優(yōu)的模型:

圖片

其中 AudioGen 為 Facebook 在 2022 年十月提出的模型,使用了十個(gè)數(shù)據(jù)集,64 塊 GPU 和 285 兆的參數(shù)量。與之相比,AudioLDM-S 可以用單獨(dú)一個(gè)數(shù)據(jù)集,1 塊 GPU 和 181 兆的參數(shù)量達(dá)到更好的效果。

圖片

主觀打分也可以看出 AudioLDM 明顯優(yōu)于之前的方案 DiffSound。那么,AudioLDM 究竟做了哪些改進(jìn)使得模型有如此優(yōu)秀的性能呢?

首先,為了解決文本 - 音頻數(shù)據(jù)對(duì)數(shù)量太少的問(wèn)題,作者提出了自監(jiān)督的方式去訓(xùn)練 AudioLDM。

圖片

具體來(lái)說(shuō),在訓(xùn)練核心模塊 LDMs 的時(shí)候,作者使用音頻自身的 embedding 去作為 LDMs 的 condition 信號(hào),整個(gè)流程并不涉及文本的使用(如上圖所示)。這種方案基于一對(duì)預(yù)訓(xùn)練好的音頻 - 文本對(duì)比學(xué)習(xí)編碼器(CLAP),在 CLAP 原文中 CLAP 展示了很好的泛化能力。AudioLDM 利用了 CLAP 優(yōu)秀的泛化能力,達(dá)到了在不需要文本標(biāo)簽情況下在大規(guī)模音頻數(shù)據(jù)上的模型訓(xùn)練。

事實(shí)上,作者發(fā)現(xiàn)單使用音頻訓(xùn)練甚至能比使用音頻 - 文本數(shù)據(jù)對(duì)更好:

圖片

作者分析了兩方面原因:(1)文本標(biāo)注本身難以包括音頻的所有信息,比如聲學(xué)環(huán)境,頻率分布等,從而導(dǎo)致文本的 embedding 不能很好表征音頻,(2)文本本身的質(zhì)量并不完美,例如這樣的一個(gè)標(biāo)注 “Boats: Battleships-5.25 conveyor space”,這種標(biāo)注即使人類也很難想象具體是什么聲音,就會(huì)導(dǎo)致模型訓(xùn)練的問(wèn)題。相比之下,使用音頻自身做 LDM 的 condition 可以保證目標(biāo)音頻和 condition 的強(qiáng)關(guān)聯(lián)性,從而達(dá)到更好的生成效果。

除此之外,作者采用的 Latent Diffusion 方案使得 Diffusion 模型可以在一個(gè)較小的空間中進(jìn)行計(jì)算,從而大大的減少了模型對(duì)算力的要求。

在模型訓(xùn)練和結(jié)構(gòu)上的許多細(xì)節(jié)探索也幫助 AudioLDM 獲得了優(yōu)秀的性能。

作者還畫了一個(gè)簡(jiǎn)單的結(jié)構(gòu)圖來(lái)介紹了兩種主要的下游任務(wù):

圖片

作者還在不同的模型結(jié)構(gòu),模型大小,DDIM 采樣步數(shù)以及不同 Classifier-free Guidance Scale 做了詳盡的實(shí)驗(yàn)。

在公開(kāi)模型的同時(shí),作者還公開(kāi)了他們的生成模型評(píng)價(jià)體系的代碼庫(kù),以統(tǒng)一今后學(xué)術(shù)界在這類問(wèn)題上的評(píng)價(jià)方法,從而方便論文之間的比較,代碼在如下鏈接中:https://github.com/haoheliu/audioldm_eval

在這項(xiàng)技術(shù)爆火的同時(shí),也有網(wǎng)友對(duì)技術(shù)的安全性提出了質(zhì)疑:

圖片

圖片

作者的團(tuán)隊(duì)表示會(huì)對(duì)模型的使用尤其是商用加以限制,保證模型僅被用來(lái)學(xué)術(shù)交流,并使用合適的 LICENSE 和水印保護(hù),防止 Ethic 方面問(wèn)題的出現(xiàn)。

作者信息

論文有兩位共同一作:劉濠赫(英國(guó)薩里大學(xué))和陳澤華(英國(guó)帝國(guó)理工學(xué)院)。

圖片

劉濠赫目前博士就讀于英國(guó)薩里大學(xué),師從 Mark D. Plumbley 教授。其開(kāi)源項(xiàng)目在 GitHub 上收獲了上千star。在各大學(xué)術(shù)會(huì)議上發(fā)表論文二十余篇,并在多項(xiàng)世界機(jī)器聲學(xué)大賽中獲得前三的名次。在企業(yè)界與微軟,字節(jié)跳動(dòng),英國(guó)廣播公司等有廣泛的合作,個(gè)人主頁(yè): https://www.surrey.ac.uk/people/haohe-liu

圖片

陳澤華是英國(guó)帝國(guó)理工學(xué)院在讀博士生,師從 Danilo Mandic 教授,曾在微軟語(yǔ)音合成研究組及京東人工智能實(shí)驗(yàn)室實(shí)習(xí),研究興趣涉及生成模型、語(yǔ)音合成、生物電信號(hào)生成。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-08-05 13:56:03

數(shù)據(jù)音樂(lè)

2023-04-03 10:04:44

開(kāi)源模型

2022-06-06 14:29:20

圖像模型任務(wù)

2022-04-26 15:09:14

優(yōu)化模型訓(xùn)練

2024-08-07 09:20:00

2025-03-13 12:39:22

2023-11-29 14:53:00

AI數(shù)據(jù)

2024-10-05 08:10:01

2025-03-13 10:26:45

2023-03-15 09:36:14

模型

2024-02-07 12:37:23

模型數(shù)據(jù)

2020-03-16 11:18:24

技術(shù)周刊

2024-12-04 11:07:09

2024-02-26 16:55:51

Sora人工智能

2023-03-02 11:44:08

AI技術(shù)

2023-12-08 08:00:00

人工智能MusicGen音樂(lè)模型

2025-02-14 09:30:00

視頻生成模型開(kāi)源機(jī)器人

2025-02-26 09:44:14

2023-12-20 14:54:29

谷歌Gen-2視頻
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)