LLaSO 橫空出世:邏輯智能推出全球首個完全開源語音大模型框架,定義 LSLM 研究新基準
在大型語言模型(LLM)的浪潮下,多模態(tài) AI 取得了飛速發(fā)展,尤其是在視覺語言(LVLM)領域,已經(jīng)形成了成熟的研究范式。然而,與之形成鮮明對比的是,大型語音語言模型(LSLM)的發(fā)展卻顯得零散且步調(diào)緩慢。
該領域長期被碎片化的架構(gòu)、不透明的訓練數(shù)據(jù)和缺失的評估標準所困擾,導致研究之間難以進行公平比較,嚴重阻礙了技術(shù)的可復現(xiàn)性和社區(qū)的系統(tǒng)性進步。許多研究雖然發(fā)布了模型權(quán)重,但其賴以成功的關鍵 —— 訓練數(shù)據(jù)和配置細節(jié) —— 卻常常被 “雪藏” 起來。
為了打破這一僵局,北京深度邏輯智能科技有限公司推出了 LLaSO—— 首個完全開放、端到端的語音語言模型研究框架。

LLaSO 旨在為整個社區(qū)提供一個統(tǒng)一、透明且可復現(xiàn)的基礎設施,其貢獻是 “全家桶” 式的,包含了一整套開源的數(shù)據(jù)、基準和模型,希望以此加速 LSLM 領域的社區(qū)驅(qū)動式創(chuàng)新。

- 論文標題:LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model論文地址:https://arxiv.org/abs/2508.15418v1
- 代碼地址:https://github.com/EIT-NLP/LLaSO
- 模型地址:https://huggingface.co/papers/2508.15418
LSLM 領域的技術(shù)挑戰(zhàn)與研究痛點
相比視覺語言模型(LVLM)領域已形成 CLIP 編碼器 + LLaVA 范式的成熟生態(tài),LSLM 研究面臨四大核心挑戰(zhàn):
1. 架構(gòu)路徑分化嚴重
當前 LSLM 架構(gòu)主要包括外部特征融合、跨模態(tài)注意力機制、隱式對齊等多種技術(shù)方案,缺乏如 LVLM 領域般的統(tǒng)一范式。不同研究團隊采用差異化架構(gòu),導致技術(shù)進展難以積累和比較。
2. 訓練數(shù)據(jù)嚴重私有化
主流 LSLM 如 Qwen-Audio、Kimi-Audio 等均依賴私有數(shù)據(jù)訓練,數(shù)據(jù)規(guī)模、質(zhì)量、構(gòu)成等關鍵信息不透明。這使得:
- 可復現(xiàn)性差:其他研究者無法復現(xiàn)相同結(jié)果
- 性能歸因模糊:難以判斷性能提升源于架構(gòu)創(chuàng)新還是數(shù)據(jù)優(yōu)勢
- 研究門檻高:新入場者需要大量資源構(gòu)建私有數(shù)據(jù)集
3. 任務覆蓋局限性明顯
現(xiàn)有數(shù)據(jù)集主要聚焦語義理解任務,對語音中的副語言學信息(paralinguistic information)如情感、口音、韻律、說話人特征等覆蓋不足,限制了模型的全面語音理解能力。
4. 交互模態(tài)單一化
大多數(shù) LSLM 僅支持 "文本指令 + 音頻輸入" 的單一交互模式,缺乏對 "音頻指令 + 文本輸入" 和純音頻交互等復雜模態(tài)組合的系統(tǒng)性支持。
LLaSO 框架:三大核心組件構(gòu)建完整生態(tài)

圖一:llaso 語料庫的制作流程
LLaSO 框架通過三個核心開源組件解決上述挑戰(zhàn):
LLaSO-Align:大規(guī)模語音 - 文本對齊數(shù)據(jù)集
- 數(shù)據(jù)規(guī)模:1200 萬語音 - 文本對齊樣本
- 數(shù)據(jù)來源:聚合對話、有聲書、多口音語音等多樣化來源
- 技術(shù)目標:通過自動語音識別(ASR)任務建立語音表示與文本語義空間的精確對齊
- 質(zhì)量控制:采用多重過濾機制確保數(shù)據(jù)質(zhì)量和說話人多樣性
LLaSO-Instruct:多任務指令微調(diào)數(shù)據(jù)集
- 數(shù)據(jù)規(guī)模:1350 萬多任務指令樣本
- 任務覆蓋:涵蓋語言學、語義學、副語言學三大類共 20 項任務
a.語言學任務:ASR、翻譯、總結(jié)等基礎語言理解
b.語義學任務:問答、推理、內(nèi)容分析等高級認知
c.副語言學任務:情感識別、口音檢測、說話人分析等
- 模態(tài)支持:系統(tǒng)性支持三種交互配置
a.文本指令 + 音頻輸入(Text-Audio)
b.音頻指令 + 文本輸入(Audio-Text)
c.純音頻指令與輸入(Audio-Audio)

圖二:LLaSO 語料庫的任務組成
LLaSO-Eval:標準化評估基準
- 樣本規(guī)模:15,044 個測試樣本
- 數(shù)據(jù)隔離:與訓練集嚴格分離,確保評估公平性
- 評估維度:覆蓋所有 20 項任務的 comprehensive evaluation
- 可復現(xiàn)性:提供統(tǒng)一評估協(xié)議和自動化評估工具

圖三:LLaSO-Base 在 LLaSO-Eval 基準測試上的表現(xiàn)結(jié)果
這三大組件共同構(gòu)成了一個完整的訓練、微調(diào)和評估流水線,為 LSLM 研究提供了前所未有的開放性和便利性。
LLaSO-Base:技術(shù)驗證與性能基準
為驗證框架有效性,邏輯智能團隊基于 LLaSO 數(shù)據(jù)訓練了 38 億參數(shù)的參考模型 LLaSO-Base。
模型架構(gòu)設計
采用經(jīng)典三階段架構(gòu):
- 語音編碼器:Whisper-large-v3,負責語音特征提取
- 模態(tài)投影器:多層感知機(MLP),實現(xiàn)語音 - 文本特征空間映射
- 語言模型 backbone:Llama-3.2-3B-Instruct,提供語言理解和生成能力
兩階段訓練策略
- 對齊階段:凍結(jié)編碼器和 LLM,僅訓練投影器,使用 LLaSO-Align 數(shù)據(jù)建立 modality alignment
- 指令微調(diào)階段:聯(lián)合訓練投影器和 LLM,使用 LLaSO-Instruct 數(shù)據(jù)學習 complex instruction following

圖四:LLaSO 模型架構(gòu)示意圖
LLaSO-Base 模型實驗結(jié)果分析
我們在一系列嚴格設計的實驗中,將 LLaSO-Base 與多個業(yè)界領先的語音語言模型(LSLMs)進行了直接對比。所有實驗均在我們構(gòu)建的標準化評估基準 LLaSO-Eval 上完成,確保了比較的公平性和結(jié)果的可復現(xiàn)性。
實驗設置與評估基準
為確保評估的全面性,我們選取了 10 個主流的語音語言模型作為基準,包括 Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的評估均在統(tǒng)一的 LLaSO-Eval 測試集上進行。

圖五:詳細描述了 LLaSO-Eval 評估基準的構(gòu)成。
該基準包含 15,044 個樣本,覆蓋了 20 種不同任務。這些任務被系統(tǒng)地劃分為三大類別,以實現(xiàn)對模型能力的深度剖析:
- 語言學任務 (Linguistic): 核心是自動語音識別 (ASR),評估模型最基礎的語音轉(zhuǎn)文本能力 。
- 語義任務 (Semantic): 核心是音頻問答 (AQA),評估模型對音頻內(nèi)容的高層次理解、推理和生成能力 。
- 副語言學任務 (Paralinguistic): 進一步細分為 “以說話人為中心”(如性別、年齡、口音識別)和 “以內(nèi)容為中心”(如意圖預測、實體提?。﹥深?,旨在評估模型對言外之意的捕捉能力 。
評估指標說明
我們的評估體系采用了多種指標,以確保對模型各方面性能的精確衡量 :
- WER/CER (詞 / 字錯誤率): 用于 ASR 等轉(zhuǎn)錄任務,數(shù)值越低,表示準確率越高。
- Accuracy (準確率): 用于分類任務(如性別、口音識別),數(shù)值越高,性能越好。
- MAE (平均絕對誤差): 用于數(shù)值預測任務(如年齡識別),數(shù)值越低,預測越精準。
- GPT-4o Score (GPT-4o 評分): 針對 AQA 等開放式生成任務,我們使用 GPT-4o 對模型輸出的相關性和準確性進行 1-5 分的打分,分數(shù)越高代表表現(xiàn)越好。
- Abstention Rate (拒絕回答率): 衡量模型在面對不熟悉或困難任務時的 “回避” 傾向。此比率越低,說明模型的指令遵循能力和魯棒性越強。
總體性能對比:LLaSO-Base 表現(xiàn)全面領先

圖六: 直觀地展示了所有模型在 LLaSO-Eval 上的總體性能得分(經(jīng)過歸一化處理)。
從圖中可以清晰地看到,LLaSO-Base 取得了 0.72 的最高分,位列第一 。這一成績顯著優(yōu)于其他所有競爭模型,例如表現(xiàn)次之的 Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。這一結(jié)果強有力地證明了 LLaSO-Base 的綜合實力。研究發(fā)現(xiàn),像 LLaSO-Base 這樣在更多樣化的任務上進行訓練的模型,其綜合性能遠超那些主要針對 AQA 等少數(shù)任務進行優(yōu)化的模型(如 Llama-Omni 和 Mini-Omni)。這凸顯了我們所提倡的廣泛任務覆蓋訓練策略的有效性。
詳細任務性能分析

圖七: 深入比較了各模型在語言學 (ASR) 和語義 (AQA) 任務上的具體表現(xiàn) 。
- 在 ASR 任務上,LLaSO-Base 展現(xiàn)了壓倒性優(yōu)勢。其 WER 和 CER 分別低至 0.08 和 0.03,是所有模型中最低的,這意味著它擁有最精準的語音轉(zhuǎn)錄能力 。相比之下,即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等強勁對手,也存在明顯差距 。
- 在 AQA 任務上,競爭十分激烈。Kimi-Audio 在標準 “文本指令 + 音頻輸入” 模態(tài)下表現(xiàn)突出,獲得了 3.35 的高分 。LLaSO-Base 在此項上得分 2.58,表現(xiàn)穩(wěn)健 。但值得注意的是,在更具挑戰(zhàn)性的 “音頻指令 + 文本輸入” 模態(tài)下,
LLaSO-Base 的得分 (2.70) 展現(xiàn)了更強的模態(tài)適應性,超過了多數(shù)模型。

圖八:呈現(xiàn)了在 18 個細分的副語言學任務上的對比結(jié)果,這是對模型能否理解 “弦外之音” 的終極考驗。
在這些更復雜的任務上,LLaSO-Base 幾乎在所有任務上都取得了頂尖或接近頂尖的成績。
- 以說話人為中心的任務:在說話人性別識別 (SGC) 和口音分類 (AC) 任務上,LLaSO-Base 的準確率名列前茅,展現(xiàn)了對說話人特征的敏銳洞察力 。
- 以內(nèi)容為中心的任務:LLaSO-Base 的優(yōu)勢更為顯著。在音素識別 (PR) 任務中,其 PER 僅為 0.03;在語音命令識別 (SCR) 任務中,WER/CER 低至 0.04/0.02 。這兩項指標均以數(shù)量級的優(yōu)勢領先于所有其他模型,展示了其在精細語音內(nèi)容分析上的卓越能力。
- 指令遵循能力:更重要的是,LLaSO-Base 在這些任務中的拒絕回答率極低。相比之下,Llama-Omni 和 Mini-Omni 等模型在許多副語言學任務上直接選擇 “拒絕回答”(表格中標記為 "Reject"),這表明它們?nèi)狈μ幚泶祟惾蝿盏哪芰?。LLaSO-Base 的穩(wěn)定響應證明了其強大的指令遵循能力和任務泛化性。
模態(tài)泛化與任務覆蓋度分析

圖九:模型在不同輸入模態(tài)下的性能穩(wěn)定性
- 模態(tài)泛化能力 (Figure 9): 該圖分析了模型在不同輸入模態(tài)(純音頻、文本 + 音頻、音頻 + 文本)下的性能穩(wěn)定性。結(jié)果顯示,大多數(shù)模型在切換到不熟悉的模態(tài)時性能會下降。雖然 LLaSO-Base 也存在性能波動,但其在標準模態(tài)下的峰值性能遠高于其他模型,這是其總體得分領先的關鍵。同時,研究也發(fā)現(xiàn),采用 “交錯或并行解碼” 策略的模型(如 Mini-Omni、GLM-4-Voice)通常表現(xiàn)出更好的穩(wěn)定性。

圖十:模型訓練正相關關系
- 任務覆蓋度的重要性 (Figure 10): 該圖清晰地揭示了模型訓練任務數(shù)量與其性能和拒絕回答率之間的正相關關系。
LLaSO-Base 經(jīng)過 20 個任務的訓練,其總體性能和指令遵循能力(低拒絕回答率)均處于領先地位 。而那些訓練任務較少的模型,性能普遍偏低,且更容易 “拒絕” 回答,這進一步驗證了 LLaSO 框架設計理念的正確性與前瞻性。
開源策略的技術(shù)價值與社區(qū)影響
對學術(shù)研究的推動作用
1. 可復現(xiàn)性保障:完整開放的訓練數(shù)據(jù)和代碼實現(xiàn)
2. 公平比較基礎:統(tǒng)一評估基準消除 evaluation bias
3. 研究門檻降低:研究者可專注于算法創(chuàng)新而非數(shù)據(jù)收集
4. 技術(shù)積累加速:基于統(tǒng)一框架的增量改進更易實現(xiàn)
對工業(yè)應用的促進效應
1. 開發(fā)成本降低:相比私有數(shù)據(jù)方案節(jié)省數(shù)千萬數(shù)據(jù)構(gòu)建成本
2. 技術(shù)風險可控:開源方案的透明性降低技術(shù)選型風險
3. 定制化便利:開放架構(gòu)支持針對性的領域 adaptation
4. 生態(tài)建設基礎:為 LSLM 生態(tài)標準化提供參考實現(xiàn)
技術(shù)局限與未來方向
當前局限性
1. 模型規(guī)模:38 億參數(shù)相比 GPT-4 級別模型仍有性能 gap
2. 多語言支持:主要針對英文和中文,其他語言覆蓋有限
3. 實時性能:大模型推理延遲對實時應用仍有挑戰(zhàn)
4. 長音頻處理:對超長音頻序列的處理效率有待優(yōu)化
發(fā)展方向
1. 模型 scaling:探索更大規(guī)模模型的性能上限
2. 效率優(yōu)化:模型壓縮、量化等技術(shù)降低部署門檻
3. 多模態(tài)擴展:集成視覺信息實現(xiàn) Audio-Visual-Language understanding
4. 領域適應:針對醫(yī)療、教育、客服等垂直領域的專用優(yōu)化
結(jié)論
LLaSO 作為全球首個完全開源的 LSLM 研究框架,通過提供大規(guī)模數(shù)據(jù)、統(tǒng)一基準和參考實現(xiàn),為語音語言模型研究建立了透明、可復現(xiàn)的技術(shù)基礎設施。其開源策略不僅降低了研究門檻,更重要的是為 LSLM 領域建立了統(tǒng)一的技術(shù)標準,有望推動該領域從 "各自為戰(zhàn)" 向 "協(xié)同創(chuàng)新" 轉(zhuǎn)變。
隨著框架的廣泛采用和社區(qū)貢獻,LLaSO 有望成為 LSLM 研究的 "ImageNet 時刻",為構(gòu)建真正理解人類語音 nuance 的 AI 系統(tǒng)奠定堅實基礎。
























