首個(gè)全面梳理語音大模型發(fā)展脈絡(luò)的權(quán)威綜述,入選ACL 2025主會(huì)
本文第一作者:崔文謙,香港中文大學(xué)博士生,致力于語音大模型,多模態(tài)大模型,AI音樂生成等方向的研究。
由香港中文大學(xué)團(tuán)隊(duì)撰寫的語音語言模型綜述論文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主會(huì)議接收!這是該領(lǐng)域首個(gè)全面系統(tǒng)的綜述,為語音 AI 的未來發(fā)展指明了方向。

- ArXiv鏈接:https://arxiv.org/abs/2410.03751
 - GitHub鏈接:https://github.com/dreamtheater123/Awesome-SpeechLM-Survey
 

為什么語音大模型是 AI 的下一個(gè)風(fēng)口?
想象一下,如果 AI 能夠像人類一樣自然地進(jìn)行語音對話,不再需要傳統(tǒng)的「語音轉(zhuǎn)文字(ASR)- 文本大模型處理(LLM)- 文字轉(zhuǎn)語音(TTS)」的繁瑣流程,而是直接理解和生成語音,那將是怎樣的體驗(yàn)?這就是語音大模型(語音語言模型,SpeechLM)要解決的核心問題。
傳統(tǒng)的語音交互系統(tǒng)存在三大痛點(diǎn):信息丟失、延遲嚴(yán)重、錯(cuò)誤累積。當(dāng)語音轉(zhuǎn)換為文字時(shí),音調(diào)、語氣、情感等副語言信息完全丟失;多個(gè)模塊串聯(lián)導(dǎo)致響應(yīng)延遲明顯;每個(gè)環(huán)節(jié)的錯(cuò)誤會(huì)層層累積,最終影響整體效果。
SpeechLM 的出現(xiàn)徹底改變了這一局面。它能夠端到端地處理語音,既保留了語音中的豐富信息,又大幅降低了延遲,為真正自然的人機(jī)語音交互鋪平了道路。

技術(shù)架構(gòu):三大核心組件構(gòu)建語音智能
本論文深入剖析了 SpeechLM 的技術(shù)架構(gòu),發(fā)現(xiàn)其由三個(gè)關(guān)鍵組件構(gòu)成:語音分詞器、語言模型和聲碼器。

- 語音分詞器(Speech Tokenizer)負(fù)責(zé)將連續(xù)的音頻信號(hào)轉(zhuǎn)換為離散或連續(xù)的 token 表示。根據(jù)建模目標(biāo)的不同,可以分為語義理解型、聲學(xué)生成型和混合型三類。語義理解型專注于提取語音的語義內(nèi)容,聲學(xué)生成型則重點(diǎn)保留音頻的聲學(xué)特征,而混合型試圖兼顧兩者的優(yōu)勢。
 - 語言模型(Language Model)是整個(gè)系統(tǒng)的核心,主要采用基于 Transformer 的自回歸架構(gòu)。通過擴(kuò)展詞匯表實(shí)現(xiàn)同時(shí)處理文本和語音 token,實(shí)現(xiàn)真正的多模態(tài)建模能力。
 - 聲碼器(Token-to-wav Synthesizer,Vocoder)則將語言模型生成的 token 轉(zhuǎn)換回可聽的音頻波形,完成從抽象表示到具體語音的最后一步轉(zhuǎn)換。
 
訓(xùn)練策略:從預(yù)訓(xùn)練到指令微調(diào)的完整流程
訓(xùn)練一個(gè)高質(zhì)量的 SpeechLM 需要精心設(shè)計(jì)的訓(xùn)練策略。我們的綜述詳細(xì)梳理了當(dāng)前主流的訓(xùn)練方法,包括三個(gè)關(guān)鍵階段。
預(yù)訓(xùn)練階段是基礎(chǔ),可以選擇冷啟動(dòng)或繼續(xù)預(yù)訓(xùn)練兩種方式。冷啟動(dòng)從零開始訓(xùn)練,而繼續(xù)預(yù)訓(xùn)練則基于已有的文本語言模型進(jìn)行適配,后者通常能獲得更好的效果。關(guān)鍵在于如何有效對齊文本和語音的表示空間,使模型能夠充分利用兩種模態(tài)的共同信息與互補(bǔ)信息。
指令微調(diào)階段讓模型學(xué)會(huì)遵循各種指令執(zhí)行不同任務(wù)。研究者們通過構(gòu)建大規(guī)模的指令跟隨數(shù)據(jù)集,讓 SpeechLM 具備了處理多樣化語音任務(wù)的能力。
后對齊階段則通過人類反饋強(qiáng)化學(xué)習(xí)等技術(shù),進(jìn)一步優(yōu)化模型的輸出質(zhì)量和安全性,確保生成的語音既自然又符合人類偏好。
交互范式:實(shí)現(xiàn)真正自然的語音對話
語音交互的未來不僅在于理解和生成,更在于如何實(shí)現(xiàn)真正自然的對話體驗(yàn)。傳統(tǒng)的語音交互采用「你說完我再說」的模式,但真實(shí)對話中人們經(jīng)常會(huì)打斷對方或同時(shí)說話。為了讓 AI 具備這種自然對話能力,研究者們正在開發(fā)具有實(shí)時(shí)交互能力的 SpeechLM。
關(guān)鍵突破在于全雙工建模技術(shù),它包括兩個(gè)核心特性:用戶中斷能力,即模型可以被用戶打斷并適當(dāng)響應(yīng);同時(shí)響應(yīng)能力,即模型能夠在處理輸入的同時(shí)生成輸出。通過流式處理和全雙工架構(gòu),SpeechLM 能夠支持真正的雙向同時(shí)通信,讓人機(jī)交互變得更加自然流暢。
應(yīng)用場景:重新定義人機(jī)交互的邊界
SpeechLM 的應(yīng)用潛力遠(yuǎn)超我們的想象。在語義相關(guān)應(yīng)用方面,它能夠進(jìn)行自然的語音對話、語音翻譯、自動(dòng)語音識(shí)別、關(guān)鍵詞檢測等任務(wù)。更重要的是,這些任務(wù)都可以在統(tǒng)一的框架下完成,無需針對每個(gè)任務(wù)訓(xùn)練專門的模型。
在說話人相關(guān)應(yīng)用中,SpeechLM 展現(xiàn)出了強(qiáng)大的說話人識(shí)別、驗(yàn)證和分離能力,甚至可以根據(jù)指令生成特定音色的語音。這為個(gè)性化語音助手和多人對話系統(tǒng)開辟了新的可能性。
最令人興奮的是副語言學(xué)應(yīng)用,SpeechLM 能夠理解和生成帶有特定情感、語調(diào)和風(fēng)格的語音。它不僅能識(shí)別說話者的情緒狀態(tài),還能根據(jù)指令生成相應(yīng)情感色彩的語音回應(yīng),讓人機(jī)交互變得更加生動(dòng)自然。
評(píng)估體系:多維度衡量模型性能
如何科學(xué)評(píng)估 SpeechLM 的性能是一個(gè)重要課題。我們的論文系統(tǒng)梳理了當(dāng)前的評(píng)估方法,包括自動(dòng)評(píng)估和人工評(píng)估兩大類。
自動(dòng)評(píng)估涵蓋了表示質(zhì)量、語言學(xué)能力、副語言學(xué)特征、生成質(zhì)量和多樣性、實(shí)時(shí)交互能力以及下游任務(wù)性能等多個(gè)維度。每個(gè)維度都有相應(yīng)的指標(biāo)和基準(zhǔn)測試,為模型比較提供了客觀標(biāo)準(zhǔn)。
人工評(píng)估則主要通過平均意見分?jǐn)?shù)(MOS)等主觀指標(biāo),從人類感知的角度評(píng)估語音的自然度、韻律質(zhì)量和音色相似度等特征。

挑戰(zhàn)與未來:通往通用語音智能的道路
盡管 SpeechLM 取得了顯著進(jìn)展,但仍面臨諸多挑戰(zhàn)。組件選擇的最優(yōu)化、端到端訓(xùn)練、實(shí)時(shí)語音生成、安全風(fēng)險(xiǎn)防控以及稀有語言支持等問題都需要進(jìn)一步研究。
特別值得關(guān)注的是安全性問題。SpeechLM 可能生成有害內(nèi)容或泄露隱私信息,如何建立有效的安全防護(hù)機(jī)制是當(dāng)務(wù)之急。同時(shí),如何讓 SpeechLM 更好地服務(wù)于資源稀缺的語言和方言,也是推動(dòng)技術(shù)普惠的重要方向。
結(jié)語:開啟語音 AI 的新紀(jì)元
這篇即將在 ACL 2025 主會(huì)議上發(fā)表的綜述論文,不僅是對 SpeechLM 領(lǐng)域的全面梳理,更是對未來發(fā)展方向的深入思考。我們相信,隨著技術(shù)的不斷進(jìn)步,SpeechLM 將徹底改變?nèi)藱C(jī)交互的方式,開啟語音 AI 的新紀(jì)元。
讓我們一起期待這個(gè)激動(dòng)人心的未來,在那里,AI 不僅能聽懂我們說什么,更能理解我們怎么說,并以同樣自然的方式與我們對話。這不僅是技術(shù)的突破,更是人類與 AI 關(guān)系的根本性變革。















 
 
 














 
 
 
 