偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta開(kāi)源文本生成音樂(lè)大模型,我們用《七里香》歌詞試了下

人工智能 新聞
年初,谷歌推出了音樂(lè)生成大模型 MusicLM,效果非常不錯(cuò)。有人稱這比大火的 ChatGPT 還重要,幾乎解決了音樂(lè)生成問(wèn)題。近日,Meta 也推出了自己的文本音樂(lè)生成模型 MusicGen,并且非商業(yè)用途免費(fèi)使用。

在進(jìn)入正文前,我們先聽(tīng)兩段 MusicGen 生成的音樂(lè)。我們輸入文本描述「a man walks in the rain, come accross a beautiful girl, and they dance happily」

然后嘗試輸入周杰倫《七里香》歌詞中的前兩句「窗外的麻雀在電線桿上多嘴,你說(shuō)這一句 很有夏天的感覺(jué)」(支持中文)

試玩地址:https://huggingface.co/spaces/facebook/MusicGen

文本到音樂(lè)是指在給定文本描述的情況下生成音樂(lè)作品的任務(wù),例如「90 年代吉他即興搖滾歌曲」。作為一項(xiàng)具有挑戰(zhàn)性的任務(wù),生成音樂(lè)要對(duì)長(zhǎng)序列進(jìn)行建模。與語(yǔ)音不同,音樂(lè)需要使用全頻譜,這意味著以更高的速率對(duì)信號(hào)進(jìn)行采樣,即音樂(lè)錄音的標(biāo)準(zhǔn)采樣率為 44.1 kHz 或 48 kHz,而語(yǔ)音的采樣率為 16 kHz。

此外,音樂(lè)包含不同樂(lè)器的和聲和旋律,這使音樂(lè)有著復(fù)雜的結(jié)構(gòu)。但由于人類聽(tīng)眾對(duì)不和諧十分敏感,因此對(duì)生成音樂(lè)的旋律不會(huì)有太大容錯(cuò)率。當(dāng)然,以多種方法控制生成過(guò)程的能力對(duì)音樂(lè)創(chuàng)作者來(lái)說(shuō)是必不可少的,如鍵、樂(lè)器、旋律、流派等。

最近自監(jiān)督音頻表示學(xué)習(xí)、序列建模和音頻合成方面的進(jìn)展,為開(kāi)發(fā)此類模型提供了條件。為了使音頻建模更加容易,最近的研究提出將音頻信號(hào)表示為「表示同一信號(hào)」的離散 token 流。這使得高質(zhì)量的音頻生成和有效的音頻建模成為可能。然而這需要聯(lián)合建模幾個(gè)并行的依賴流。

Kharitonov 等人 [2022]、Kreuk 等人 [2022] 提出采用延遲方法并行建模語(yǔ)音 token 的多流,即在不同流之間引入偏移量。Agostinelli 等人 [2023] 提出使用不同粒度的多個(gè)離散標(biāo)記序列來(lái)表示音樂(lè)片段,并使用自回歸模型的層次結(jié)構(gòu)對(duì)其進(jìn)行建模。同時(shí),Donahue 等人 [2023] 采用了類似的方法,但針對(duì)的是演唱到伴奏生成的任務(wù)。最近,Wang 等人 [2023] 提出分兩個(gè)階段解決這個(gè)問(wèn)題:限制對(duì)第一個(gè) token 流建模。然后應(yīng)用 post-network 以非自回歸的方式聯(lián)合建模其余的流。

本文中,Meta AI 的研究者提出了 MUSICGEN,這是一種簡(jiǎn)單、可控的音樂(lè)生成模型,能在給定文本描述的情況下生成高質(zhì)量的音樂(lè)。

圖片


論文地址:https://arxiv.org/pdf/2306.05284.pdf

研究者提出一個(gè)對(duì)多個(gè)并行聲學(xué) token 流進(jìn)行建模的通用框架,作為以前研究的概括 (見(jiàn)下圖 1)。為提高生成樣本的可控性,本文還引入了無(wú)監(jiān)督旋律條件,使模型能夠根據(jù)給定和聲和旋律生成結(jié)構(gòu)匹配的音樂(lè)。本文對(duì) MUSICGEN 進(jìn)行了廣泛的評(píng)估,所提出的方法在很大程度上優(yōu)于評(píng)估基線:MUSICGEN 的主觀評(píng)分為 84.8 (滿分 100 分),而最佳基線為 80.5。此外,本文還提供一項(xiàng)消融研究,闡明了每個(gè)組件對(duì)整體模型性能的重要性。

最后,人工評(píng)估表明,MUSICGEN 產(chǎn)生了高質(zhì)量的樣本,這些樣本在符合文本描述,在旋律上也更好地與給定的和聲結(jié)構(gòu)對(duì)齊。

圖片

本文的主要貢獻(xiàn)有如下幾點(diǎn):

  • 提出了一個(gè)簡(jiǎn)單高效的模型:可以在 32khz 產(chǎn)生高質(zhì)量的音樂(lè)。MUSICGEN 可以通過(guò)有效的碼本交錯(cuò)策略,用單階段語(yǔ)言模型生成一致的音樂(lè);
  • 提出一個(gè)單一的模型,進(jìn)行文本和旋律條件生成,其生成的音頻與提供的旋律是一致的,并符合文本條件信息;
  • 對(duì)所提出方法的關(guān)鍵設(shè)計(jì)選擇進(jìn)行了廣泛的客觀及人工評(píng)估。

方法概覽

MUSICGEN 包含一個(gè)基于自回歸 transformer 的解碼器,并以文本或旋律表示為條件。該(語(yǔ)言)模型基于 EnCodec 音頻 tokenizer 的量化單元,它從低幀離散表示中提供高保真重建效果。此外部署殘差向量量化(RVQ)的壓縮模型會(huì)產(chǎn)生多個(gè)并行流。在此設(shè)置下,每個(gè)流都由來(lái)自不同學(xué)得碼本的離散 token 組成。

以往的工作提出了一些建模策略來(lái)解決這一問(wèn)題。研究者提出了一種新穎的建模框架,它可以泛化到各種碼本交錯(cuò)模式。該框架還有幾種變體?;谀J剑麄兛梢猿浞掷昧炕纛l token 的內(nèi)部結(jié)構(gòu)。最后 MUSICGEN 支持基于文本或旋律的條件生成。

音頻 tokenization 

研究者使用了 EnCodec,它是一種卷積自編碼器,具有使用 RVQ 量化的潛在空間和對(duì)抗重建損失。給定一個(gè)參考音頻隨機(jī)變量 X ∈ R^d?f_s,其中 d 表示音頻持續(xù)時(shí)間,f_s 表示采樣率。EnCodec 將該變量編碼為幀率為 f_r ? f_s 的連續(xù)張量,然后該表示被量化為 Q ∈ {1, . . . , N}^K×d?f_r,其中 K 表示 RVQ 中使用的碼本數(shù)量,N 表示碼本大小。

碼本交錯(cuò)模式

精確扁平化自回歸分解。自回歸模型需要一個(gè)離散隨機(jī)序列 U ∈ {1, . . . , N}^S 和序列長(zhǎng)度 S。按照慣例,研究者將采用 U_0 = 0,這是一個(gè)確定性的特殊 token,表示序列的開(kāi)始。然后他們可以對(duì)分布進(jìn)行建模。

不精確的自回歸分解。另一種可能是考慮自回歸分解,其中一些碼本需要進(jìn)行并行預(yù)測(cè)。比如定義另一個(gè)序列,V_0 = 0,并且 t∈ {1, . . . , N}, k ∈ {1, . . . , K}, V_t,k = Q_t,k。當(dāng)刪除碼本索引 k 時(shí)(如 V_t),這代表了時(shí)間為 t 時(shí)所有碼本的串聯(lián)。

任意碼本交錯(cuò)模式。為了試驗(yàn)此類分解,并準(zhǔn)確測(cè)量使用不精確分解的影響,研究者引入了碼本交錯(cuò)模式。首先考慮? = {(t, k) : {1, . . . , d?f_r}, k ∈ {1, . . . , K}},它是所有時(shí)間步和碼本索引對(duì)的集合。碼本模式是序列 P=(P_0, P_1, P_2, . . . , P_S),其中 P_0 = ?,,并且 0 < i ≤ S, P_i ? ?,這樣 P 是?的分區(qū)。研究者通過(guò)并行地預(yù)測(cè) P_t 中的所有位置來(lái)建模 Q,并以 P_0, P_1, . . . , P_T 中的所有位置為條件。同時(shí)考慮到實(shí)際效率,他們只選擇了「每個(gè)碼本在任何 P_s 中最多出現(xiàn)一次」的模式。

模型條件化

文本條件化。給定與輸入音頻 X 匹配的文本描述,研究者計(jì)算條件張量 C ∈ R^T_C ×D,其中 D 是自回歸模型中使用的內(nèi)部維數(shù)。

旋律條件化。雖然文本是當(dāng)今條件生成模型的主要方法,但更自然的音樂(lè)方法是以來(lái)自另一個(gè)音軌甚至口哨或哼唱的旋律結(jié)構(gòu)為條件。這種方法還允許對(duì)模型輸出進(jìn)行迭代優(yōu)化。為了支持這一點(diǎn),研究者嘗試通過(guò)聯(lián)合調(diào)節(jié)輸入的色譜圖和文本描述來(lái)控制旋律結(jié)構(gòu)。再最初的試驗(yàn)中,他們觀察到以原始色譜圖為條件通常會(huì)重建原始樣本,導(dǎo)致過(guò)擬合。為此,研究者在每個(gè)時(shí)間步中選擇主要的時(shí)頻 bin 來(lái)引入信息瓶頸。

模型架構(gòu)

碼本投影和位置嵌入。給定一個(gè)碼本模式,在每個(gè)模式步 P_s 中只有一些碼本的存在。研究者從 Q 中檢索出對(duì)應(yīng) P_s 中索引的值。每個(gè)碼本在 P_s 中最多出現(xiàn)一次或根本不存在。

Transformer 解碼器。輸入被饋入到具有 L 層和 D 維的 transformer 中,每一層都由一個(gè)因果自注意力塊組成。然后使用一個(gè)跨注意力塊,該塊由條件化信號(hào) C 提供。當(dāng)使用旋律調(diào)節(jié)時(shí),研究者將條件化張量 C 作為 transformer 輸入的前綴。

Logits 預(yù)測(cè)。在模式步 P_s 中,transformer 解碼器的輸出被轉(zhuǎn)換為 Q 值的 Logits 預(yù)測(cè)。每個(gè)碼本在 P_s+1 中最多出現(xiàn)一次。如果碼本存在,則從 D 通道到 N 應(yīng)用特定于碼本的線性層來(lái)獲得 Logits 預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果

音頻 tokenization 模型。研究對(duì) 32 kHz 單聲道音頻使用非因果五層 EnCodec 模型,其步幅為 640,幀率為 50 Hz,初始隱藏大小為 64,在模型的五層中每層都增加一倍。

變壓器模型,研究訓(xùn)練了不同大小的自回歸 Transformer 模型:300M, 1.5B, 3.3B 參數(shù)。

訓(xùn)練數(shù)據(jù)集。研究使用 2 萬(wàn)小時(shí)的授權(quán)音樂(lè)來(lái)訓(xùn)練 MUSICGEN。詳細(xì)來(lái)說(shuō),研究使用了一個(gè)包含 10K 個(gè)高質(zhì)量曲目的內(nèi)部數(shù)據(jù)集,以及分別包含 25K 和 365K 只有樂(lè)器曲目的 ShutterStock 和 Pond5 音樂(lè)數(shù)據(jù)集。

評(píng)估數(shù)據(jù)集。研究在 MusicCaps 基準(zhǔn)上對(duì)所提出的方法進(jìn)行了評(píng)估,并與之前的工作進(jìn)行了比較。MusicCaps 是由專家音樂(lè)家準(zhǔn)備的 5.5K 樣本 (10 秒長(zhǎng)) 和跨流派平衡的 1K 子集組成的。

下表 1 給出了所提方法與 Mousai、Riffusion、MusicLM 和 Noise2Music 的比較。結(jié)果表明,在音頻質(zhì)量和對(duì)提供的文本描述的一致性方面,MUSICGEN 的表現(xiàn)優(yōu)于人類聽(tīng)眾的評(píng)估基線。Noise2Music 在 MusicCaps 上的 FAD 方面表現(xiàn)最好,其次是經(jīng)過(guò)文本條件訓(xùn)練的 MUSICGEN。有趣的是,添加旋律條件會(huì)降低客觀指標(biāo),但是并不會(huì)顯著影響人類評(píng)分,且仍然優(yōu)于評(píng)估的基線。

圖片

研究者在給出的評(píng)估集上使用客觀和主觀度量,在文本和旋律表示的共同條件下評(píng)估 MUSICGEN,結(jié)果見(jiàn)下表 2。結(jié)果表明,用色譜圖條件化訓(xùn)練的 MUSICGEN 成功地生成了遵循給定旋律的音樂(lè),從而可以更好地控制生成的輸出。MUSICGEN 對(duì)于在推理時(shí)使用 OVL 和 REL 丟掉色度具有魯棒性。

圖片

碼本交錯(cuò)模式的影響。研究者使用 2.2 節(jié)中的框架評(píng)估了各種碼本模式,K = 4,由音頻 tokenization 模型給出。本文在下表 3 中報(bào)告了客觀和主觀評(píng)價(jià)。雖然扁平化改善了生成效果,但它的計(jì)算成本很高。使用簡(jiǎn)單的延遲方法,只需花費(fèi)一小部分成本就能得到類似的性能。

圖片

模型大小的影響。下表 4 報(bào)告了不同模型大小的結(jié)果,即 300M、1.5B 和 3.3B 參數(shù)模型。正如預(yù)期的那樣,擴(kuò)大模型大小可以得到更好的分?jǐn)?shù),但前提是需要更長(zhǎng)的訓(xùn)練和推理時(shí)間。主觀評(píng)價(jià)方面,在 1.5B 時(shí)整體質(zhì)量是最優(yōu)的,但更大的模型可以更好地理解文本提示。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-04-08 08:05:00

大模型人工智能開(kāi)源

2024-02-19 09:19:54

OpenAIAI模型人工智能

2023-08-05 13:56:03

數(shù)據(jù)音樂(lè)

2025-07-23 09:10:00

AI模型架構(gòu)

2023-08-03 07:24:40

MetaAI 語(yǔ)言模型

2021-02-01 10:11:04

工具代碼開(kāi)發(fā)

2018-03-27 13:33:48

百度

2019-12-03 10:22:50

AWSAI亞馬遜

2023-12-08 08:00:00

人工智能MusicGen音樂(lè)模型

2023-10-27 13:05:23

模型訓(xùn)練

2024-09-30 09:04:20

2021-12-23 09:54:02

AI模型人工智能

2023-06-12 14:15:38

AI開(kāi)源

2023-10-17 08:00:00

人工智能ColabMusicGen

2025-05-30 09:10:00

模型論文AI

2024-02-07 12:37:23

模型數(shù)據(jù)

2024-07-19 11:50:28

2023-08-04 17:33:27

Meta音頻AI

2024-04-19 07:55:57

Llama 3模型人工智能開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)