譯者 | 朱先忠
審校 | 重樓
音樂AI產(chǎn)品如何提升每個人的音樂制作水平的圖像(通過與ChatGPT和DALL-E-3的對話生成的圖像)
簡要回顧AI人工智能音樂模型歷史
2023年2月,谷歌公司憑借其生成式人工智能音樂模型MusicLM在業(yè)界掀起了軒然大波。在這一點上,有兩件事變得清晰起來:
- 2023年將是基于人工智能的音樂生成的突破性一年
- 一個新的模型很快就會讓MusicLM黯然失色
許多人預計,就模型參數(shù)和訓練數(shù)據(jù)而言,下一個突破性模型的規(guī)模將是MusicLM的十倍。當然,它還將提出同樣的道德問題,包括限制訪問源代碼和使用受版權(quán)保護的訓練材料等。
不過,時至今天,我們知道只有部分是真的。
Meta公司的MusicGen模型于2023年6月發(fā)布,這個模型帶來了一些巨大的改進,包括以下幾個方面:
- 更高質(zhì)量的音樂輸出(24kHz→ 32kHz)
- 更自然的發(fā)聲樂器
- 以任何旋律為條件生成的選項(我已經(jīng)寫了一篇關(guān)于這一點的博客文章:https://medium.com/towards-data-science/how-metas-ai-generates-music-based-on-a-reference-melody-de34acd783)
……同時使用更少的訓練數(shù)據(jù),開源代碼和模型權(quán)重,并且只使用商業(yè)許可的訓練材料等。
六個月后,炒作已經(jīng)慢慢平息。然而,Meta公司的研究團隊FAIR繼續(xù)發(fā)表有關(guān)論文并更新相應代碼,以便逐步改進MusicGen模型。
模型研究進展
自MusicGen模型發(fā)布以來,Meta公司在兩個關(guān)鍵方面對MusicGen進行了升級:
- 使用多波段擴散實現(xiàn)更高質(zhì)量的生成
- 立體聲生成帶來更生動的輸出
雖然這聽起來像是兩個小的改進,但卻存在很大的不同。你自己聽聽吧!以下是使用原始MusicGen模型(3.3B參數(shù))生成的10秒作品:
來自MusicGen官方演示頁面生成的曲目
使用的提示內(nèi)容是:
“earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves.”
對應的中文含義大致是:“鄉(xiāng)土色調(diào),環(huán)境氣氛,融入尤克萊利琴,和諧、輕快、隨和的音調(diào),有機樂器、節(jié)奏柔和。”
接下來,下面給出的是MusicGen模型在六個月后根據(jù)上面相同提示生成的輸出示例:
MusicGen模型生成了作者用MusicGen 3.3B立體聲創(chuàng)建的曲目
如果你是通過智能手機揚聲器收聽,差異可能不會很明顯。在其他設(shè)備上,你應該能夠聽到整體聲音更加清晰自然,立體聲使作品更加生動和令人興奮。
在這篇博客文章中,我想展示MusicGen模型在上述這些方面的改進,解釋它們?yōu)槭裁粗匾约八鼈兪侨绾喂ぷ鞯?,并提供一?/span>音樂生成的例子。
多波段擴散——這有什么作用?
為了理解什么是多波段擴散以及為什么它會產(chǎn)生影響,讓我們首先來看一看最初的MusicGen模型([參考資料1])是如何產(chǎn)生其輸出的。
在一臺具有近100萬個數(shù)字的計算機上,以34kHz的采樣率生成30秒的音頻。如果一個樣本一個樣本地生成這樣的作品的話,那么,其大小相當于用ChatGPT生成10本完整的小說。
相反,Meta公司使用了神經(jīng)音頻壓縮技術(shù)。他們的壓縮模型EnCodec([參考資料2])可以將音樂從34kHz壓縮到大約0.05kHz,同時保持相關(guān)信息,并將其重建為原始采樣率。EnCodec由一個編碼器和一個解碼器組成,前者壓縮音頻,后者再現(xiàn)原始聲音(見下圖)。
Encodec:Meta公司使用的神經(jīng)音頻壓縮模型(圖片由作者本人提供)
現(xiàn)在,讓我們回到MusicGen模型。這個模型不是通過全采樣率生成音樂,而是以0.05kHz的頻率生成音樂,并讓EnCodec“重建”音樂,從而以最小的計算時間和成本獲得高保真度輸出(見下圖)。
MusicGen:用戶提示(文本)被轉(zhuǎn)換為編碼的音頻信號,然后對其進行解碼以產(chǎn)生最終結(jié)果(圖片由作者本人提供)
雖然EnCodec是一項令人印象深刻的技術(shù),但它的壓縮并不是無損的。與原始音頻相比,重建的音頻中存在明顯的偽音。你們自己聽聽就知道了!
原始音頻效果
EnCodec編碼生成的音樂示例(取自EnCodec官方演示頁面)
重建后的音頻效果
由于MusicGen模型完全依賴EnCodec編碼技術(shù),所以這是生成音樂質(zhì)量的主要瓶頸。這也正是Meta公司決定改進EnCodec解碼器部分的原因。2023年8月,他們?yōu)镋nCodec開發(fā)了一種利用多頻帶擴散的更新解碼器([參考資料3])。
Meta公司在EnCodec的原始解碼器中發(fā)現(xiàn)的一個問題是,它傾向于先生成低頻,然后生成高頻。不幸的是,這意味著低頻中的任何誤差/偽音也會使高頻失真,從而大幅降低輸出質(zhì)量。
多頻帶擴散通過在組合頻譜之前獨立生成頻譜的不同部分來解決這個問題。研究人員發(fā)現(xiàn),這一程序顯著提高了生成的輸出。從我的角度來看,這些差異是顯而易見的。使用原始EnCodec解碼器和多頻帶擴散解碼器收聽同一曲目效果對比如下:
原始解碼器效果
生成的曲目取自多波段擴散演示網(wǎng)頁(https://ai.honu.io/papers/mbd/)
多頻帶擴散解碼器效果
生成的曲目取自多波段擴散演示網(wǎng)頁(https://ai.honu.io/papers/mbd/)
當前文本到音樂系統(tǒng)的核心問題之一是,它產(chǎn)生的聲音總是有一種不自然的品質(zhì),尤其是對于聲學樂器。多波段擴散使輸出聲音更加清晰自然,并將MusicGen模型提升到了一個新的水平。
為什么立體聲如此重要?
到目前為止,大多數(shù)生成音樂模型都是單聲道的。這意味著,MusicGen模型不會將任何聲音或樂器放在左側(cè)或右側(cè),從而導致混音不那么生動和令人興奮。到目前為止,立體聲之所以被忽視,是因為生成立體聲不是一項微不足道的任務。
作為音樂家,當我們產(chǎn)生立體聲信號時,我們可以訪問混音中的各個樂器曲目,我們可以將它們放在任何我們想要的地方。MusicGen模型并不單獨生成所有樂器,而是生成一個組合音頻信號。如果沒有這些樂器來源,就很難產(chǎn)生立體聲。不幸的是,將音頻信號分解為單獨的來源是一個棘手的問題(我已經(jīng)發(fā)表了一篇關(guān)于這方面的博客文章:https://medium.com/towards-data-science/ai-music-source-separation-how-it-works-and-why-it-is-so-hard-187852e54752),而且這項技術(shù)還沒有100%準備好。
因此,Meta公司決定將立體聲生成直接納入MusicGen模型。他們使用了一個由立體聲音樂組成的新數(shù)據(jù)集,訓練MusicGen產(chǎn)生立體聲輸出。研究人員聲稱,與單聲道相比,生成立體聲沒有額外的計算成本。
雖然我覺得論文中沒有很清楚地描述立體聲過程,但我的理解是這樣的(見下圖):MusicGen已經(jīng)學會了生成兩個壓縮音頻信號(左聲道和右聲道),而不是一個單聲道信號。這些壓縮信號在組合以構(gòu)建最終立體聲輸出之前必須單獨解碼。這個過程不需要兩倍的時間,是因為MusicGen現(xiàn)在可以在與以前一個信號幾乎相同的時間產(chǎn)生兩個壓縮音頻信號。
MusicGen立體聲更新示意圖(請注意,論文中沒有充分記錄這個過程,我無法100%確定,只是把它當作一個有根據(jù)的猜測。此外,圖片由作者本人提供)
能夠產(chǎn)生令人信服的立體聲確實使MusicGen模型與MusicLM模型或Stable Audio等其他最先進的模型不同。在我看來,這種“小”的改進對生成的音樂的生動性產(chǎn)生了巨大的影響。自己聽一聽(在智能手機揚聲器上可能很難聽到):
單聲道效果
立體聲效果
結(jié)論
MusicGen模型自從發(fā)布之日起就給人留下了深刻印象。然而,從那時起,Meta公司的FAIR團隊一直在不斷改進他們的產(chǎn)品,實現(xiàn)更高質(zhì)量的結(jié)果,以便聽起來更真實。在生成音頻信號的文本到音樂模型(而不是MIDI等)方面,從我的角度來看,MusicGen模型領(lǐng)先于其競爭對手(截至2023年11月)。
此外,由于MusicGen模型及其所有相關(guān)產(chǎn)品(EnCodec、AudioGen)都是開源的,所以它們也必將構(gòu)成令人難以置信的新創(chuàng)作的靈感來源,也是有抱負的人工智能音頻工程師的首選框架。如果我們看看MusicGen模型在短短6個月內(nèi)取得的進步,我只能想象2024年將是激動人心的一年。
另一個重要的觀點是,Meta公司通過其透明的方法,也在為那些希望將這項技術(shù)集成到音樂軟件中的開發(fā)人員做了基礎(chǔ)工作。生成樣本、集思廣益的音樂創(chuàng)意或改變現(xiàn)有作品的風格——這些都是我們已經(jīng)開始看到的一些令人興奮的應用。有了足夠的透明度,我們可以確保我們正在建設(shè)一個未來,讓人工智能讓音樂創(chuàng)作變得更加令人興奮,而不僅僅是對人類音樂才能出現(xiàn)的威脅。
注意:雖然MusicGen模型是開源的,但經(jīng)過預訓練的模型可能不會在商業(yè)上使用!訪問audiocraft的GitHub存儲庫(https://github.com/facebookresearch/audiocraft),你將會了解到有關(guān)其所有組件預期用途的更多詳細信息。
參考資料
[1]Copet et al. (2023),Simple and Controllable Music Generation,https://arxiv.org/pdf/2306.05284.pdf。
[2]Défossez et al. (2022),High Fidelity Neural Audio Compression,https://arxiv.org/pdf/2210.13438.pdf。
[3]Roman et al. (2023),From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion,https://arxiv.org/abs/2308.02560。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:MusicGen Reimagined: Meta’s Under-the-Radar Advances in AI Music,作者:Max Hilsdorf