讓機器像人一樣聽音樂,Facebook開源Demucs項目
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓。這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪音和一屋子的人聊天中分離出來。
如果你擁有原始的錄音室多軌錄音,這很容易實現,你只需調整混音來分離一個音軌。但是,如果你從一個普通MP3音頻文件開始,所有的樂器和聲音都被混合到一個立體聲錄音中,即使是最復雜的軟件程序也很難精確地挑出一個部分。
Facebook AI 的研究人員已經開發(fā)了一個系統,可以做到這一點——精確度高得驚人。
創(chuàng)建者名叫亞歷山大·笛福茲(Alexandre Defossez),是Facebook人工智能巴黎實驗室的科學家。笛福茲的系統被稱為Demucs,這個名字來源于“音樂資源深度提取器”,其工作原理是檢測聲波中的復雜模式,對每種樂器或聲音的波形模式建立一個高層次的理解,然后利用人工智能將它們巧妙地分離開來。
笛福茲說,像Demucs這樣的技術,不僅能幫助音樂家學習復雜的吉他即興重復段落;總有一天,它還能讓人工智能助手在嘈雜的房間里更容易聽到語音指令。
笛福茲說他的目標是讓人工智能系統擅長識別音頻源的組成部分,就像它們現在可以在一張照片中準確地區(qū)分不同的物體一樣。“我們在音頻方面還沒有達到同樣的水平,”他說。
分解聲波的更好方法
聲源分離長期以來一直吸引著科學家。1953年,英國認知科學家科林·切里(Colin Cherry)創(chuàng)造了“雞尾酒會效應”這個詞語,用來描述人類在擁擠嘈雜的房間里專注于一次談話的能力。
工程師們首先試圖通過調整立體聲錄音中的左右聲道,或調整均衡器設置來提高或降低某些頻率,從而隔離歌曲的人聲或吉他聲。
基于聲譜圖的人工智能系統,在分離出以單一頻率響起或共振的樂器的音符方面相對有效,例如鋼琴或小提琴旋律。
這些旋律在聲譜圖上顯示為清晰、連續(xù)的水平線。但是隔離那些產生殘余噪音的撞擊聲,比如鼓,低音拍擊,是一項非常艱巨的任務。鼓點感覺像一個單一的、實時的整體事件,但它實際上包含了不同的部分。對于鼓來說,它包括覆蓋較高頻率范圍的初始撞擊,隨后是在較低頻率范圍內的無音高衰減。笛福茲說,一般的小鼓“就頻率而言,到處都是”。
聲譜圖只能將聲波表現為時間和頻率的組合,無法捕捉到這樣的細微差別。因此,他們將鼓點或拍子低音處理成幾條不連續(xù)的垂直線,而不是一個整齊、無縫的聲音。這就是為什么通過聲譜圖分離出來的鼓和低音軌道,聽起來常常是模糊不清的。
足夠聰明的系統來重建缺失
基于人工智能的波形模型避免了這些問題,因為它們不試圖將一首歌放到時間和頻率的僵化結構中。笛福茲解釋說,波形模型的工作方式與計算機視覺相似,計算機視覺是人工智能的研究領域,旨在讓計算機學會從數字圖像中識別模式,從而獲得對視覺世界的高級理解。
計算機視覺使用神經網絡來檢測基本模式——類似于在圖像中發(fā)現角落和邊緣——然后推斷更高級或更復雜的模式。“波形模型的工作方式非常相似,”笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率——人聲、低音、鼓或吉他——并為每一個元素生成單獨的波形。然后,它開始推斷更高比例的結構,以增加細微差別,并精細雕刻每個波形。
笛福茲說,他的系統也可以比作探測和記錄地震的地震儀。地震時,地動儀的底座會移動,但懸掛在上面的重物不會移動,這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智能模型可以探測到同時發(fā)生的幾個不同的地震,然后推斷出每個地震的震級和強度的細節(jié)。同樣,笛福茲的系統分析并分離出一首歌曲的本來面目,而不是根據預先設定的聲譜圖結構來分割它。
笛福茲解釋說,構建這個系統需要克服一系列復雜的技術挑戰(zhàn)。
他首先使用了Wave-U-Net(https://github.com/f90/Wave-U-Net)的底層架構,這是一個為音樂源分離開發(fā)的早期人工智能波形模型。但是他有很多工作要做,因為聲譜圖模型的表現優(yōu)于Wave-U-Net。他通過添加線性單元來微調波形網絡中分析模式的算法參數。笛福茲還增加了長短期記憶,這種結構允許網絡處理整個數據序列,如一段音樂或一段視頻,而不僅僅是一個數據點,如圖像。笛福茲還提高了Wave-U-Net的速度和內存使用率。
這些修改幫助Demucs在一些重要方面勝過Wave-U-Net,比如它如何處理一種聲音壓倒另一種聲音的問題。“你可以想象一架飛機起飛,引擎噪音會淹沒一個人的聲音,”笛福茲說。
以前的波形模型,通過簡單地移除原始音頻源文件的一部分來處理這個問題,但是它們不能重建丟失材料的重要部分。笛福茲增強了Demucs解碼器的能力,“Demucs可以重新創(chuàng)建它認為存在但卻迷失在混音中的音頻。” 這意味著他的模型可以重新合成可能被響亮的鐃鈸聲丟失的柔和的鋼琴音符,因為它理解應該呈現什么樣的聲音。
這種重構和分離的能力使Demucs比其他波形模型有優(yōu)勢。笛福茲說,Demucs已經與最好的波形技術相匹配,并且“遠遠超出”最先進的聲譜技術。
在盲聽測試中,38名參與者從50首測試曲目中隨機抽取8秒鐘進行聽音,這50首曲目由三個模型分開:Demucs、領先波形、頻譜圖技術。聽眾認為Demucs在質量和無偽影(如背景噪音或失真)方面表現最佳。
Demucs已經引起了人工智能愛好者的興趣,精通技術的讀者可以從GitHub下載Demucs的代碼(https://github.com/facebookresearch/demucs)。代碼用MusDB數據集來分離音樂源。
笛福茲解釋說,隨著Demucs的發(fā)展,它將為人們在家中創(chuàng)作音樂的數字音頻工作站帶來聲音的真實性。這些工作站提供了能夠喚起特定時代或風格的合成儀器,通常需要對原始硬件進行大量的數字化改造。
想象一下,如果音樂源分離技術能夠完美地捕捉20世紀50年代搖滾歌曲中用電子管放大器演奏的老式空心體電吉他的聲音。Demucs讓音樂愛好者和音樂家離這一能力更近了一步。
via:https://tech.fb.com/one-track-minds-using-ai-for-music-source-separation/




























