語音分離最全綜述來了!清華等團隊深度分析200+文章,系統(tǒng)解析「雞尾酒會問題」研究
語音分離領域針對具有挑戰(zhàn)性的 “雞尾酒會問題”,隨著深度神經(jīng)網(wǎng)絡 (DNN) 的發(fā)展,該領域取得了革命性的進展。語音分離可以用于獨立應用,在復雜的聲學環(huán)境中提高語音清晰度。此外,它還可以作為其他語音處理任務(如語音識別和說話人識別)的重要預處理方法。
為了應對當前的文獻綜述往往只關(guān)注特定的架構(gòu)設計或孤立的學習方法,導致對這個快速發(fā)展的領域的理解碎片化的現(xiàn)實情況,清華大學、青海大學、南京大學、南方科技大學、中國科學院大學、字節(jié)跳動的研究者們?nèi)嬲{(diào)研了該領域的發(fā)展和最前沿的研究方法,在深度學習方法、模型架構(gòu)、研究主題、評測指標、數(shù)據(jù)集、工具平臺、模型效果比較、未來挑戰(zhàn)等多個維度,撰寫了一項統(tǒng)一、全面的綜述論文,對 200 余篇代表性論文進行了系統(tǒng)歸納和分析。

表1 基于深度學習的語音分離最新調(diào)查與綜述的比較分析

- 論文鏈接:https://arxiv.org/abs/2508.10830
- Methods Search:https://cslikai.cn/Speech-Separation-Paper-Tutorial/
- Github鏈接:https://github.com/JusperLee/Speech-Separation-Paper-Tutorial
問題定義
作者們從語音分離領域的宏觀角度出發(fā),根據(jù)混合說話人數(shù)量是否已知將已知人數(shù)分離和未知人數(shù)分離兩類。當說話人數(shù)固定且已知時,網(wǎng)絡輸出固定個數(shù)的通道,可以通過深度聚類 (Deep Clustering) 或 Permutation Invariant Training(PIT,排列不變訓練)等策略解決輸出順序不確定的 “排列歧義” 問題。對于未知人數(shù)的情況,模型需要動態(tài)決定輸出通道數(shù)并判斷何時結(jié)束分離。這帶來巨大挑戰(zhàn):如說話人排列組合隨人數(shù)增加呈指數(shù)擴展、需要在分離質(zhì)量與終止時機之間權(quán)衡避免欠分離或過分離等。為應對這些問題,研究者提出了遞歸分離、動態(tài)網(wǎng)絡等框架來逐步提取不定數(shù)量的聲源。作者們從問題定義部分明確了語音分離任務的目標和難點,為后續(xù)技術(shù)討論奠定了基礎。

圖 1 已知 / 未知聲源數(shù)量的語音分離概述。
學習范式
作者們分類總結(jié)了學習范式,比較了不同方法的適用場景和優(yōu)缺點,為讀者理解監(jiān)督與非監(jiān)督方法在語音分離中的權(quán)衡提供了清晰脈絡。重點對比了有監(jiān)督和無監(jiān)督(含自監(jiān)督)學習方法。有監(jiān)督學習利用配對的混合音頻及純凈源音頻進行訓練,是目前最成熟的范式。針對有監(jiān)督訓練中不同源輸出無法一一對應的標簽置換問題,研究者提出了兩類經(jīng)典方案:
一是深度聚類方法(DPCL),通過神經(jīng)網(wǎng)絡將混合語音的時頻單元映射到高維嵌入空間,再將嵌入向量聚類以生成每個聲源的掩膜,從而避免直接輸出固定順序的源信號;
二是 Permutation Invariant Training(PIT)方法,在訓練時對網(wǎng)絡輸出的來源標簽進行動態(tài)匹配,只保留誤差最小的排列來更新模型,從而使網(wǎng)絡學習到與輸出排列無關(guān)的分離能力。

圖 2 受監(jiān)督的語音分離工作流程。
無監(jiān)督學習則不依賴配對的干凈源參考,探索利用未標注的混合語音直接訓練分離模型。例如,MixIT(混合 - 分離訓練)方法通過將兩段混合語音再混合作為輸入,讓模型輸出更多分量并設計損失函數(shù)僅依賴輸入混合物,實現(xiàn)無需純凈源標簽的訓練。這類方法以及基于生成模型的自監(jiān)督策略(如變分自編碼器 VAE 方法、擴散模型等)為無法獲得干凈訓練數(shù)據(jù)的場景提供了新思路。
模型架構(gòu)
模型架構(gòu)部分系統(tǒng)總結(jié)了語音分離模型的核心組成和演進路線。典型架構(gòu)包含編碼器、分離網(wǎng)絡和解碼器。

圖 3 不同方案的發(fā)展脈絡
綜述按網(wǎng)絡類型歸納了主要的分離器架構(gòu):
基于 RNN 的模型利用循環(huán)神經(jīng)網(wǎng)絡擅長捕獲語音信號中的長時依賴關(guān)系。早期很多方法在頻域用雙向 LSTM 生成掩膜;后來出現(xiàn)直接處理時域波形的端到端模型(如 TasNet 系列 ),避免了相位重建難題并提升效率。代表性的 Dual-Path RNN(雙路徑 RNN)通過劃分長序列為短塊并在塊內(nèi)和塊間雙路徑循環(huán)處理,高效建模長序列,被視為 RNN 架構(gòu)的里程碑。
基于 CNN 的模型利用卷積神經(jīng)網(wǎng)絡強大的局部特征提取能力,適合直接對原始波形建模。Conv-TasNet 等時域卷積模型通過空洞卷積等技術(shù)兼顧短時細節(jié)和長程依賴,在無需頻域處理的情況下取得了優(yōu)異分離效果?;谧宰⒁饬Φ哪P停═ransformer 及其變種)引入了全局序列建模能力,在語音分離中用于捕獲長距離依賴并建模復雜場景下源間關(guān)系。
近年來出現(xiàn)的 SepFormer 等 Transformer 架構(gòu)進一步刷新了分離性能。還有混合架構(gòu)將上述優(yōu)勢結(jié)合,例如將 CNN 的局部建模和 RNN/Transformer 的長程建模相融合,以兼顧不同尺度的信息。
除了分離網(wǎng)絡,綜述還討論了音頻重構(gòu)策略:一類是掩膜估計,即模型輸出每個源的時間頻率掩膜,乘以混合后再重建源信號;另一類是直接映射,即模型直接輸出各源的波形或特征表示。掩膜方法簡單直觀且易于結(jié)合頻域特征,而直接法避免誤差傳播,有望獲取更高保真度。
總體而言,本節(jié)脈絡清晰地展現(xiàn)了模型架構(gòu)從早期循環(huán)網(wǎng)絡到卷積、再到自注意力和混合模型的演進,以及各種重構(gòu)方式的權(quán)衡,凸顯了架構(gòu)創(chuàng)新對性能提升的驅(qū)動作用。
評估指標
評價語音分離效果需要科學全面的指標體系,以便衡量模型性能、指導算法優(yōu)化并確保滿足實際應用需求。該綜述將評估指標分為主觀和客觀兩大類。綜述對比了各種指標的優(yōu)劣:主觀評價貼近人耳體驗但難以大規(guī)模獲取,客觀指標高效客觀但各自側(cè)重不同方面,需要結(jié)合使用。綜合運用主客觀評價能夠更完整地刻畫語音分離系統(tǒng)的性能,為研究和應用提供可靠依據(jù)。

表 2 不同評價指標的對比
數(shù)據(jù)集
公開數(shù)據(jù)集為語音分離研究提供了標準測試,他們按照單通道和多通道對主流數(shù)據(jù)集進行了總結(jié)。通過對數(shù)據(jù)集的梳理,研究者可以了解各數(shù)據(jù)集所覆蓋的場景和難度,有助于選擇合適的數(shù)據(jù)集來評估算法并發(fā)現(xiàn)當前研究還未覆蓋的場景(例如更長時段對話、開放域噪聲環(huán)境等),從而指導未來數(shù)據(jù)收集和模型開發(fā)。

表 3 不同數(shù)據(jù)集的比較
實驗結(jié)果
他們匯總了不同模型在各標準數(shù)據(jù)集上的分離性能對比,勾勒出語音分離技術(shù)近年來的進步軌跡。作者列舉了眾多具有代表性的模型在若干公開基準上的評測結(jié)果,并通過圖表展示性能隨時間的提升趨勢。
例如,在經(jīng)典數(shù)據(jù)集 WSJ0-2mix 上,早期模型(如 DPCL、uPIT-BLSTM 等)能達到約 10 dB 的 SDR;隨后基于深度學習的端到端模型(如 Conv-TasNet)將性能推升到 12 dB 以上;最近兩三年的先進架構(gòu)(如 SepFormer、DPRNN 系列、雙路 Transformer 等)更是將 SDR 提升到 20 dB 左右,接近定量評測所能達到的上限。這些結(jié)果直觀證明了架構(gòu)創(chuàng)新和訓練范式改進對分離效果的巨大推動作用。
不僅如此,綜述還比較了模型在不同數(shù)據(jù)集上的表現(xiàn)差異:例如在含噪聲混響的 WHAM! 和 WHAMR! 上,模型性能相對無噪條件下降明顯,說明噪聲魯棒性仍是挑戰(zhàn);這種多維度的結(jié)果對比幫助讀者了解各類方法的優(yōu)勢和局限:有的模型在干凈近場語音下接近完美,但在遠場或噪聲場景下性能下滑;有的方法擅長分離兩三人對話,但擴展到更多說話人時代價巨大。通過統(tǒng)一的結(jié)果匯總與分析,作者提供了對當前最先進技術(shù)水平的客觀評估,并據(jù)此指出了亟待攻克的薄弱環(huán)節(jié)。

圖 4 語音分離模型在 WSJ0-2mix 上隨時間的變化表現(xiàn)
工具平臺
為了推動研究復現(xiàn)和應用落地,綜述還介紹了當前常用的開源工具和平臺,這些軟件庫為語音分離任務提供了便利的開發(fā)接口和訓練框架。對比了各工具的功能側(cè)重點,例如有的注重學術(shù)研究易用性,有的側(cè)重工業(yè)優(yōu)化和實時性能,也指出了當前工具鏈存在的局限,如對最新算法的支持仍需跟進等。通過了解這些平臺,研發(fā)人員可以更高效地復現(xiàn)論文結(jié)果、搭建原型系統(tǒng),加速從研究到應用的轉(zhuǎn)化。

表 4 不同開源工具的對比
挑戰(zhàn)與探索
在對現(xiàn)狀全面總結(jié)的基礎上,深入討論了語音分離領域當前存在的熱點難題和未來可能的探索方向。
首先,長時段音頻處理,在實際應用中(如會議記錄、連續(xù)對話)需要處理數(shù)分鐘甚至更長的音頻,如何在保證分離連續(xù)性的同時控制模型復雜度和內(nèi)存開銷。
其次,移動端和嵌入式應用要求分離模型具備較小的參數(shù)量和計算量,因此研究者正探索剪枝、量化、知識蒸餾以及新的高效架構(gòu)(如高效卷積、高效自注意力等)來減小模型體積,同時維持性能。
第三,因果(實時)語音分離也是熱點之一:實時通信和在線處理要求算法只能利用當前及過去幀的信息,不能窺視未來,這對模型的延時、緩存機制提出嚴格要求。如何在嚴格的因果約束下仍然取得接近離線模型的分離效果。
第四,生成式方法的崛起為語音分離提供了新思路:包括生成對抗網(wǎng)絡(GAN)和擴散模型在內(nèi)的新型生成模型開始用于語音分離,以期生成更逼真的語音并改善分離質(zhì)量,尤其在弱監(jiān)督或無監(jiān)督場景下展示出潛力。
第五,預訓練技術(shù)正逐步引入本領域:借鑒 ASR 等領域的成功,大規(guī)模自監(jiān)督預訓練(如 wav2vec 2.0 等)或基于音頻編碼器的預訓練模型可以提供強大的通用特征,在低資源分離任務上顯著提升性能。未來可能出現(xiàn)專門針對語音分離預訓練的模型或利用語音神經(jīng)編碼器壓縮感知混合信號的新范式。
第六,目標說話人提取作為語音分離的變種也備受關(guān)注:即利用已知的目標說話人特征(如說話人注冊音頻)從混合中提取該說話人的語音,相比盲分離加入了先驗信息,如何高效利用目標說話人嵌入并與分離網(wǎng)絡融合是研究重點。最后,綜述強調(diào)了與其他任務的聯(lián)合建模趨勢:語音分離正日益與語音識別、說話人識別 / 分離、語音增強等任務結(jié)合,形成端到端的聯(lián)合優(yōu)化框架。





























