偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<samp id="babtc"><center id="babtc"><th id="babtc"></th></center></samp>

<tr id="babtc"><rt id="babtc"></rt></tr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

10秒生成4分鐘音樂，8GB顯存就能跑！已登Hugging Face趨勢榜

作者：新智元 2025-03-12 10:41:34

人工智能新聞

DiffRhythm是一款新型AI音樂生成模型，能在10秒內(nèi)生成長達4分45秒的完整歌曲，包含人聲和伴奏。它采用簡單高效的全diffusion架構(gòu)，僅需歌詞和風格提示即可創(chuàng)作，還支持本地部署，最低只需8G顯存。

音樂創(chuàng)作，尤其是完整歌曲的生成，一直是人工智能領(lǐng)域的一大挑戰(zhàn)。

Suno、Udio等商用音樂生成大模型展現(xiàn)出驚人的音樂生成能力。但現(xiàn)有開源的音樂生成模型要么只能生成人聲或伴奏，要么依賴復雜的多階段架構(gòu)，難以擴展到長音頻生成。

而現(xiàn)在，AI音樂破局時刻到了！

近日，西北工業(yè)大學音頻語音與語言處理實驗室（ASLP@NPU）和香港中文大學（深圳）的研究團隊提出了一種名為DiffRhythm（中文名：諦韻）的新型音樂生成AI模型，全diffusion架構(gòu)，它能夠在短短10秒內(nèi)生成長達4分45秒的不同風格完整雙軌高保真歌曲，包含人聲和伴奏！

最低僅需8G顯存，可本地部署到消費級顯卡！

在線Demo: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

Paper: https://arxiv.org/abs/2503.01183

Github: https://github.com/ASLP-lab/DiffRhythm

Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base

這一成果不僅刷新了音樂生成的速度，還大大簡化了生成流程，讓音樂創(chuàng)作變得更加高效和便捷。模型完全采用華為昇騰910B訓練，同時支持N卡。

目前模型和推理代碼全部開源。開源短短幾天位列Hugging Face Space趨勢榜第一和總榜第五，受到眾多網(wǎng)友和音樂愛好者廣泛好評。

Hotel-California-as-performed-by-DiffRhythm,新智元,1分鐘

DiffRhythm：簡單、快速、高質(zhì)量

DiffRhythm 的核心優(yōu)勢在于它的簡潔性和高效性。在模型方面它摒棄了復雜的多階段架構(gòu)，采用了一個簡單的基于LLaMA的DiT，只需要歌詞和風格提示即可生成歌曲。

這種非自回歸結(jié)構(gòu)確保了快速的推理速度，相比現(xiàn)有的語言模型方法，DiffRhythm的速度提升顯著，更適合實時應用和用戶交互。在數(shù)據(jù)方面，僅需音頻與對應歌詞，無需復雜數(shù)據(jù)處理標注流程，易于scale up到大數(shù)據(jù)。

DiffRhythm以歌詞和風格提示輸入，生成44.1kHz采樣率全長立體聲音樂作品（最長4分45秒）。

DiffRhythm由兩個順序訓練的模型組成：1) 變分自編碼器 (VAE)，學習音頻波形的緊湊潛在表示，使得分鐘級長音頻建模成為可能；2) DiT 建模 VAE 的潛在空間，通過迭代去噪生成歌曲。

句級歌詞對齊

在歌曲生成中，歌詞與歌聲的對齊是一個極具挑戰(zhàn)性的問題，可以概括為以下兩個方面：

時間上的不連續(xù)性：歌詞中的句子之間往往存在較長的間隔，這些間隔可能是純音樂部分，導致歌詞與歌聲之間的時間對應關(guān)系不連續(xù)。
伴奏的干擾：相同的一個字，在不同歌曲中的伴奏不同，唱法也不同，這使得歌聲的對齊更加復雜。

為了解決這些問題，DiffRhythm 提出了一種句子級對齊機制。具體來說，該機制僅依賴于句子起始時間的標注，通過以下步驟實現(xiàn)歌詞與歌聲的對齊：

句子分割與音素轉(zhuǎn)換：首先，將歌詞按照句子分割，并通過 Grapheme-to-Phoneme (G2P) 轉(zhuǎn)換將每個句子轉(zhuǎn)換為音素序列。
初始化潛在序列：創(chuàng)建一個與潛在表示長度相同的序列，并用填充符號（<pad>）初始化。
對齊音素與潛在表示：根據(jù)歌詞句子的起始時間戳，將音素序列映射到潛在表示的對應位置。例如，如果一個句子的起始時間是 10 秒，那么對應的音素序列將被放置在潛在表示的第 10 秒位置。

通過這種方式，DiffRhythm 只需要句子起始時間的標注，即可實現(xiàn)歌詞與歌聲的對齊。

壓縮魯棒VAE

考慮到大量歌曲數(shù)據(jù)都以壓縮后的MP3格式存在，而高頻細節(jié)在壓縮過程中會受到損害，我們采用數(shù)據(jù)增強來賦予VAE修復功能。

具體來說，VAE以無損FLAC格式數(shù)據(jù)進行訓練，其中輸入經(jīng)過MP3壓縮，而重建目標仍然是原始無損數(shù)據(jù)。通過這種有損到無損的重建過程，VAE學會將從有損壓縮數(shù)據(jù)中得出的潛在表示解碼回無損音頻信號。

?? 實驗結(jié)果

DiffRhythm的表現(xiàn)令人印象深刻。在音頻重建方面，它在無損和有損壓縮條件下都優(yōu)于現(xiàn)有的基線模型。

在可視化分析中，可以看到DiffRhythm VAE可以有效修復MP3壓縮損失

在歌曲生成方面，DiffRhythm的生成歌曲在音質(zhì)、音樂性和歌詞可理解性上都表現(xiàn)出色，與現(xiàn)有的SongLM模型相比，DiffRhythm的歌詞清晰度更高，推理速度更快。

未來展望

盡管DiffRhythm已經(jīng)可以快速生成整首歌曲，但仍有進一步優(yōu)化的空間。例如，未來可能會通過在訓練中引入隨機掩碼來支持對生成歌曲的特定片段進行編輯。

此外，DiffRhythm 未來可能會引入自然語言條件機制，以實現(xiàn)更精細的風格控制，從而無需依賴音頻參考。

責任編輯：張燕妮來源：新智元

模型 AI 生成

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tfoot id="ccwt0"></tfoot>

<tr id="ccwt0"><fieldset id="ccwt0"></fieldset></tr>

<pre id="ccwt0"><sup id="ccwt0"></sup></pre>