偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)博士搞的AI火了,一鍵完美分離人聲和伴奏

人工智能
寫(xiě)歌填詞、改換風(fēng)格、續(xù)寫(xiě)音樂(lè)的AI,今天又來(lái)做編曲人了!

 [[424966]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)歌填詞、改換風(fēng)格、續(xù)寫(xiě)音樂(lè)的AI,今天又來(lái)做編曲人了!

上傳一段《Stay》,一鍵按下:

字節(jié)博士搞的AI火了,一鍵完美分離人聲和伴奏 | 在線可玩

伴奏和人聲就輕松分離:

https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247594465&idx=3&sn=83a18be3019dbecd6040031618d112dc&chksm=e8d1c693dfa64f85e7db0f5157d533361da6c8b71a9ceacdfc29a28399bd6d0bade7a046014f&token=497180065&lang=zh_CN#rd

人聲頗有種在空曠地帶清唱的清晰感,背景樂(lè)都能直接拿去做混剪了!

[[424967]]

這樣驚人的效果也引發(fā)了Reddit熱議:

字節(jié)博士搞的AI火了,一鍵完美分離人聲和伴奏 | 在線可玩

這項(xiàng)研究的主要負(fù)責(zé)人孔秋強(qiáng)來(lái)自字節(jié)跳動(dòng),全球最大的古典鋼琴數(shù)據(jù)集GiantMIDI-Piano,也是由他在去年?duì)款^發(fā)布的。

那么今天,他又帶來(lái)了怎樣的一個(gè)AI音樂(lè)家呢?

一起來(lái)看看。

基于深度殘差網(wǎng)絡(luò)的音源分離

這是一個(gè)包含了相位估計(jì)的音樂(lè)源分離(MSS)系統(tǒng)。

首先,將幅值(Magnitude)與相位(Phase)解耦,用以估計(jì)復(fù)數(shù)理想比例掩碼(cIRM)。

其次,為了實(shí)現(xiàn)更靈活的幅值估計(jì),將有界掩碼估計(jì)和直接幅值預(yù)測(cè)結(jié)合起來(lái)。

最后,為MSS系統(tǒng)引入一個(gè)143層的深度殘差網(wǎng)絡(luò)(Deep Residual UNets),利用殘差編碼塊(REB)和殘差解碼塊(RDB)來(lái)增加其深度:

字節(jié)博士搞的AI火了,一鍵完美分離人聲和伴奏 | 在線可玩

殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊(ICB),以提高殘差網(wǎng)絡(luò)的表達(dá)能力。

其中每個(gè)殘差編碼塊由4個(gè)殘差卷積塊(RCB)組成,殘差卷積塊又由兩個(gè)核大小為3×3的卷積層組成。

每個(gè)殘差解碼塊由8個(gè)卷積層和1個(gè)反卷積層組成。

字節(jié)博士搞的AI火了,一鍵完美分離人聲和伴奏 | 在線可玩

實(shí)驗(yàn)結(jié)果

接下來(lái),將這一系統(tǒng)在MUSDB18數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

MUSDB18中的訓(xùn)練/驗(yàn)證集分別包含100/50個(gè)完整的立體聲音軌,包括獨(dú)立的人聲、伴奏、低音、鼓和其他樂(lè)器。

在訓(xùn)練時(shí),利用上述系統(tǒng)進(jìn)行并行的混合音頻數(shù)據(jù)增強(qiáng),隨機(jī)混合來(lái)自同一來(lái)源的兩個(gè)3秒片段,然后作為一個(gè)新的3秒片段進(jìn)行訓(xùn)練。

以信號(hào)失真率(SDR)作為評(píng)判標(biāo)準(zhǔn),可以看到ResUNetDecouple系統(tǒng)在分離人聲、低音、其他和伴奏方面明顯優(yōu)于以前的方法:

字節(jié)博士搞的AI火了,一鍵完美分離人聲和伴奏 | 在線可玩

在消融實(shí)驗(yàn)中,143層殘差網(wǎng)絡(luò)的表現(xiàn)也證實(shí)了,結(jié)合有界掩碼估計(jì)和直接幅值預(yù)測(cè)確實(shí)能夠改善聲音源分離系統(tǒng)的性能。

字節(jié)博士搞的AI火了,一鍵完美分離人聲和伴奏 | 在線可玩

作者介紹

這項(xiàng)研究的論文一作為孔秋強(qiáng),本碩都畢業(yè)于華南理工大學(xué),博士則畢業(yè)于英國(guó)薩里大學(xué)的電子信息工程專(zhuān)業(yè)。

他在2019年加入字節(jié)跳動(dòng)的Speech, Audio and Music Intelligence研究小組,主要負(fù)責(zé)音頻信號(hào)處理和聲音事件檢測(cè)等領(lǐng)域的研究。

[[424968]]

論文:
https://arxiv.org/abs/2109.05418

試玩:
https://huggingface.co/spaces/akhaliq/Music_Source_Separation

開(kāi)源地址:
https://github.com/bytedance/music_source_separation

參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-12-17 09:00:00

2024-10-08 14:20:21

2023-04-23 15:42:18

圖像視頻

2022-12-29 16:41:10

PPT

2017-06-09 11:11:55

互聯(lián)網(wǎng)

2015-02-09 15:25:52

換膚

2023-12-25 12:49:09

訓(xùn)練模型

2024-07-05 14:29:49

2023-03-31 09:30:21

ChatGPT論文

2025-01-17 10:30:00

Adobe生成式AI工具

2025-04-01 00:00:22

數(shù)據(jù)場(chǎng)景競(jìng)品

2020-05-07 11:03:32

AI 馬賽克工具

2015-11-03 15:29:49

ONOS開(kāi)放網(wǎng)絡(luò)操作系統(tǒng)SDN

2024-12-09 09:15:00

模型AI

2022-04-07 13:56:13

前端一鍵換膚

2022-04-08 07:54:40

人工智能核算結(jié)果Python

2020-12-07 09:31:47

AI 谷歌人工智能

2025-05-16 10:50:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)