零樣本 | MusicMagus:基于擴散模型的零樣本文本驅(qū)動音樂編輯新方案
一眼概覽
MusicMagus 提出了一種基于擴散模型的零樣本文本到音樂編輯方法,可在不額外訓(xùn)練的情況下,通過文本編輯修改音樂的風(fēng)格、音色和樂器,同時保持其他屬性不變。實驗表明,該方法在風(fēng)格轉(zhuǎn)換和音色轉(zhuǎn)換方面優(yōu)于現(xiàn)有零樣本方法,并在某些任務(wù)上超越監(jiān)督學(xué)習(xí)方法。
核心問題
當(dāng)前的文本到音樂生成模型已取得長足進展,但音樂創(chuàng)作往往需要反復(fù)修改,而如何在保持音樂整體結(jié)構(gòu)的同時,精準(zhǔn)編輯特定屬性仍然是個挑戰(zhàn)?,F(xiàn)有方法依賴手工標(biāo)注數(shù)據(jù)集或特定任務(wù)訓(xùn)練,限制了編輯的靈活性和通用性。因此,本研究的核心問題是:
如何在無需額外訓(xùn)練的情況下,實現(xiàn)靈活的文本驅(qū)動音樂編輯?
技術(shù)亮點
1. 無監(jiān)督零樣本編輯:MusicMagus 不依賴成對訓(xùn)練數(shù)據(jù),而是利用預(yù)訓(xùn)練擴散模型的潛在表示空間,直接進行文本驅(qū)動的音樂編輯。
2. 語義一致性約束:通過向量化的編輯方向和交叉注意力約束,確保編輯后的音樂在保持原有結(jié)構(gòu)的同時,僅修改目標(biāo)屬性。
3. 兼容現(xiàn)有模型:無需重新訓(xùn)練,直接集成于現(xiàn)有的文本到音樂擴散模型(如 AudioLDM 2),提升可用性。
方法框架
圖片
MusicMagus 的編輯過程包括以下步驟:
1. 文本變換:通過單詞替換(如“鋼琴”→“吉他”)來定義編輯目標(biāo),并計算語義變換向量,以捕捉文本變化的方向。
2. 擴散模型編輯:
? 在潛在空間應(yīng)用編輯向量,調(diào)整擴散模型的語義條件;
? 施加交叉注意力約束,確保非編輯部分保持不變。
3. 音樂重建:利用擴散模型去噪生成新的音樂片段,實現(xiàn)零樣本風(fēng)格或音色轉(zhuǎn)換。
實驗結(jié)果速覽
圖片
(1) 主觀實驗
在音色轉(zhuǎn)換任務(wù)中(鋼琴 → 風(fēng)琴、鋼琴 → 中提琴等),MusicMagus 在相關(guān)性(REL)、整體質(zhì)量(OVL)和一致性(CON)方面均優(yōu)于AudioLDM 2 和 Transplayer。
(2) 客觀實驗
MusicMagus 在語義一致性(CLAP 相似度)和旋律一致性(Chroma 相似度)方面均優(yōu)于基線。
實用價值與應(yīng)用
MusicMagus 適用于多種音樂編輯場景:
? 音樂制作:藝術(shù)家可通過文本指令快速調(diào)整風(fēng)格或替換樂器,提升音樂創(chuàng)作效率。
? 影視配樂:可根據(jù)導(dǎo)演需求調(diào)整背景音樂風(fēng)格,而無需重新錄制。
? 游戲音效:允許游戲開發(fā)者通過文本指令靈活調(diào)整游戲配樂,增強互動體驗。
此外,該方法還可用于真實音樂編輯,通過DDIM 反演對真實音頻進行修改,但目前仍受模型泛化能力的限制。
開放問題
? 長音頻編輯:當(dāng)前方法主要針對短音樂片段,未來如何擴展至完整歌曲或長音頻編輯?
? 多樂器混合編輯:目前僅支持單個音色轉(zhuǎn)換,如何在不影響整體結(jié)構(gòu)的情況下修改多個樂器或風(fēng)格?
? 更高音質(zhì)生成:現(xiàn)有擴散模型生成的音樂仍受16kHz 采樣率限制,如何提高音質(zhì)以滿足專業(yè)需求?