完全透明開源的共情語音大模型,三階段訓(xùn)練,四大模塊實現(xiàn)端到端對話
GPT-4o、Gemini這些頂級語音模型雖然展現(xiàn)了驚人的共情對話能力,但它們的技術(shù)體系完全閉源。
現(xiàn)在,紫東太初團(tuán)隊聯(lián)合長城汽車AI Lab直接把整個技術(shù)棧都開源了,推出完全透明開源的端到端共情語音語言大模型OpenS2S。
OpenS2S的核心在于提供一個高效、低成本構(gòu)建共情語音系統(tǒng)的新范式。
它不僅繼承了團(tuán)隊在語音到文本共情模型BLSP-Emo上的技術(shù)積累,更引入了流式交錯解碼架構(gòu),實現(xiàn)了低延遲的實時語音生成。OpenS2S提出自動化數(shù)據(jù)生成方法,結(jié)合大語言模型與可控文本到語音生成技術(shù),構(gòu)建多說話者、多情感的高質(zhì)量共情語音訓(xùn)練語料。
最為重要的是,團(tuán)隊開源了構(gòu)建OpenS2S所需的所有資源,包括:訓(xùn)練與微調(diào)數(shù)據(jù)集、數(shù)據(jù)構(gòu)建代碼、模型權(quán)重以及預(yù)訓(xùn)練和微調(diào)代碼,致力于賦能更廣泛的研究社區(qū),推動共情語音系統(tǒng)領(lǐng)域的創(chuàng)新與發(fā)展。
△表1 語音語言大模型的開源程度
核心貢獻(xiàn)
1. 模型的構(gòu)建與訓(xùn)練
OpenS2S 基于先進(jìn)的框架構(gòu)建了高效的端到端語音到語音共情對話模型,并使用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練。該模型能夠為人類與人工智能提供更便捷、更自然的交互方式。
2. 共情語音指令數(shù)據(jù)集的自動化構(gòu)建
OpenS2S提出了一種自動化的數(shù)據(jù)增強方法,融合了大語言模型(LLMs)與文本到語音(TTS)技術(shù)的優(yōu)勢,專為共情語音對話而設(shè)計。借助LLMs生成豐富多樣的用戶提問與共情回應(yīng),再通過語音克隆技術(shù)確保說話者身份的多樣性。更重要的是,該技術(shù)實現(xiàn)了對語音情感表達(dá)的精準(zhǔn)控制,能夠以極低的人力成本,構(gòu)建出內(nèi)容豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)集,為共情語音系統(tǒng)的發(fā)展注入強大動力。
3. 全面開源發(fā)布
為促進(jìn)學(xué)術(shù)合作與推動共情大規(guī)模語音語言模型(LSLMs)領(lǐng)域的快速創(chuàng)新,OpenS2S完整開源了所有核心資源。包括模型權(quán)重、數(shù)據(jù)集構(gòu)建代碼、預(yù)訓(xùn)練與微調(diào)代碼、評估工具及合成數(shù)據(jù)集,致力于為研究社區(qū)提供完全透明、可復(fù)現(xiàn)的研究基礎(chǔ),助力共情語音技術(shù)的持續(xù)突破。
技術(shù)方案
OpenS2S 采用模塊化設(shè)計,包含四大核心組件:
- 音頻編碼器:基于Qwen2-Audio編碼器,高效提取音頻波形中的語義與非語言特征。- 指令遵循大語言模型(LLM):選用Qwen3-8B-Instruct,發(fā)揮其強大的文本理解與處理能力,實現(xiàn)精準(zhǔn)指令解析。- 流式語音解碼器:借鑒Minmo與LLaMA-Omni2,采用監(jiān)督語義語音分詞器將語音響應(yīng)離散化為token,隨后通過自回歸文本到語音模型生成連續(xù)語音token,實現(xiàn)低延遲流式生成。- Token2Wav解碼器:將生成的語音token轉(zhuǎn)換為最終語音波形,分塊感知因果流匹配模型及HiFi-GAN聲碼器均采用 GLM-4-Voice 中的預(yù)訓(xùn)練組件,保證語音質(zhì)量自然流暢。
**△圖1 OpenS2S架構(gòu)示意圖
數(shù)據(jù)構(gòu)建過程:
首先,利用強大的LLMs生成多樣化且富有共情色彩的用戶查詢及其對應(yīng)的回應(yīng),確保了對話內(nèi)容的豐富性和真實性。
接著,通過引入語音克隆技術(shù),進(jìn)一步豐富了數(shù)據(jù)集的語音多樣性,使其能夠模擬不同說話者的聲音。
更進(jìn)一步,借助InstructTTS技術(shù),模型能夠?qū)φZ音回應(yīng)中的情感表達(dá)進(jìn)行精確控制,使合成的語音不僅語義連貫,更能在情感層面自然地傳遞共情。
通過這一自動化流程,OpenS2S實現(xiàn)了以極低的成本合成出大量高質(zhì)量、具備語言多樣性的共情語音對話數(shù)據(jù),并且僅需少量人工監(jiān)督,從而為模型學(xué)習(xí)富有共情的人機(jī)交互提供了堅實且可擴(kuò)展的訓(xùn)練基礎(chǔ)。
△圖2共情語音指令數(shù)據(jù)集構(gòu)建的自動化流程
訓(xùn)練流程分為三階段:
語音理解預(yù)訓(xùn)練、語音生成預(yù)訓(xùn)練及共情語音指令微調(diào),全面提升模型對語音語義和非語言線索的感知能力,最終實現(xiàn)自然且富有共情的語音響應(yīng)生成。
△圖3 OpenS2S訓(xùn)練過程示意圖
實驗結(jié)果
端到端語音到語音共情交互相對難以評測,按照兩階段的方式,先進(jìn)行語音到文本的評測,再展示語音到語音的共情交互樣例。
語音到文本評測能夠驗證模型的語音指令遵循能力、語義和情感理解能力。在語音到文本的交互能力評估中,OpenS2S在VoiceBench的四個子集上取得了優(yōu)異成績,其表現(xiàn)僅次于Kimi-Audio(基于超大規(guī)模語音數(shù)據(jù)訓(xùn)練),優(yōu)于其他所有模型。
這表明OpenS2S擁有強大的語音交互能力,能夠高效理解用戶的語音指令輸入。此外,在URO-Bench的共情評估子集上,盡管訓(xùn)練數(shù)據(jù)量遠(yuǎn)少于現(xiàn)有最先進(jìn)模型,OpenS2S依然取得了很好的表現(xiàn)。
這不僅驗證了OpenS2S的共情交互能力,也充分體現(xiàn)了其創(chuàng)新共情語音對話數(shù)據(jù)生成方法的高質(zhì)量和有效性。
△表2 OpenS2S與其他模型在語音到文本交互基準(zhǔn)測試中的性能對比。
在GitHub頁面上還展示了若干語音到語音的共情對話樣例。從例子中可以深切感受到模型對于用戶的精準(zhǔn)理解和共情能力。
論文地址:https://arxiv.org/pdf/2507.05177
Demo樣例地址:https://casia-lm.github.io/OpenS2S
代碼地址:https://github.com/CASIA-LM/OpenS2S
數(shù)據(jù)地址:https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets
模型地址:https://huggingface.co/CASIA-LM/OpenS2S