AI集體“聽(tīng)不懂”!MMAR基準(zhǔn)測(cè)試揭示音頻大模型巨大短板
用AI來(lái)整理會(huì)議內(nèi)容,已經(jīng)是人類的常規(guī)操作。
不過(guò),你猜怎么著?面對(duì)1000道多步驟音頻推理題時(shí),30款A(yù)I模型竟然幾乎全軍覆沒(méi),很多開(kāi)源模型表現(xiàn)甚至接近瞎猜。
就連表現(xiàn)最好的開(kāi)源模型Qwen-2.5-Omni,準(zhǔn)確率也只有56.7%;而閉源選手Gemini 2.0 Flash則以65.6%的成績(jī)一騎絕塵,遙遙領(lǐng)先全場(chǎng)。
這一全新基準(zhǔn)測(cè)試MMAR來(lái)自上海交通大學(xué)、 南洋理工大學(xué)、倫敦瑪麗皇后大學(xué)、字節(jié)跳動(dòng)、2077AI開(kāi)源基金會(huì)等研究機(jī)構(gòu)。

MMAR 是什么?它有多難?
MMAR全稱是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。
簡(jiǎn)單來(lái)說(shuō),它是一個(gè)包含1000個(gè)高質(zhì)量問(wèn)題的音頻理解評(píng)估基準(zhǔn),每個(gè)問(wèn)題都要求模型具備多步驟的深度推理能力。
我們先來(lái)看個(gè)例子:

問(wèn)題是:理發(fā)師能否聽(tīng)懂英文?
在這段音頻中,被理發(fā)的人用英語(yǔ)反復(fù)強(qiáng)調(diào)自己想要的理發(fā)效果,另一個(gè)人將其翻譯成中文來(lái)幫助他強(qiáng)調(diào),這說(shuō)明理發(fā)師不能聽(tīng)懂英文,需要旁人翻譯為中文。這個(gè)問(wèn)題考察音頻大模型對(duì)于多說(shuō)話人交互和復(fù)雜語(yǔ)義的理解和推理能力,屬實(shí)不易。
而這樣的例子有整整1000題,由標(biāo)注者們頭腦風(fēng)暴并精心標(biāo)注,還通過(guò)了嚴(yán)格的審核程序。其他的例子包括:
- “根據(jù)聲音,判斷哪次尺子伸出桌子外的長(zhǎng)度更長(zhǎng)?”
- “根據(jù)石頭落井的回聲,判斷井深度?”
- “這三段音樂(lè)的作曲家的親子關(guān)系?”
- “有幾個(gè)人在學(xué)說(shuō)中文?”

△MMAR基準(zhǔn)測(cè)試中的例子
這些問(wèn)題覆蓋了四個(gè)層級(jí)的推理能力:
層級(jí) | 簡(jiǎn)單解釋 |
信號(hào)層(Signal) | 聲音的基本屬性,比如頻率、波形、節(jié)奏等 |
感知層(Perception) | 識(shí)別聲音種類、來(lái)源、方向等 |
語(yǔ)義層(Semantic) | 理解音頻內(nèi)容所表達(dá)的意義 |
文化層(Cultural) | 結(jié)合文化背景、常識(shí)、風(fēng)格等進(jìn)行深層次解讀 |
而且,每個(gè)任務(wù)都需要多步推理,其中一些任務(wù)甚至需要極富挑戰(zhàn)性的感知技能和領(lǐng)域特定知識(shí),音頻包含真實(shí)場(chǎng)景的語(yǔ)音、音樂(lè)、環(huán)境事件聲音和他們的混合,相當(dāng)?shù)挠须y度。

△MMAR音頻數(shù)據(jù)的語(yǔ)音、音樂(lè)、環(huán)境事件聲音和他們混合的類別分布

△MMAR的推理層級(jí)和任務(wù)類別分布
測(cè)試結(jié)果:AI 在“聽(tīng)”方面到底怎么樣?
研究團(tuán)隊(duì)一口氣測(cè)試了30款音頻相關(guān)模型,包括 LALMs(大型音頻語(yǔ)言模型)、LARMs(大型音頻推理模型)、OLMs(全能型多模態(tài)模型)等等。結(jié)果讓人有點(diǎn)哭笑不得:
- 開(kāi)源模型中,最強(qiáng)的是Qwen-2.5-Omni(7B),但平均準(zhǔn)確率也僅為56.7%,這說(shuō)明MMAR的難度遠(yuǎn)超預(yù)期;
- 而閉源模型Gemini 2.0 Flash直接飆到了65.6%,甩開(kāi)其他選手一大截;
- 更夸張的是:大部分開(kāi)源模型的表現(xiàn),幾乎跟瞎猜差不多。
這說(shuō)明了什么?
說(shuō)明當(dāng)前大多數(shù)開(kāi)源模型,在面對(duì)復(fù)雜音頻推理任務(wù)時(shí),還遠(yuǎn)遠(yuǎn)沒(méi)達(dá)到實(shí)用水平。

△泊松二項(xiàng)分布展示了隨機(jī)猜測(cè)下準(zhǔn)確率的P值
更令人驚訝的是,在音樂(lè)相關(guān)的任務(wù)中,幾乎所有模型都“掉了鏈子”。這說(shuō)明當(dāng)前模型在識(shí)別旋律、節(jié)奏結(jié)構(gòu)、作曲風(fēng)格等深層次音頻信息方面仍存在巨大挑戰(zhàn)。

△五類模型在MMAR基準(zhǔn)上的結(jié)果
其次,具有顯式推理能力的模型始終優(yōu)于不具備顯式推理能力的模型。例如,Audio-Reasoner的表現(xiàn)優(yōu)于Qwen2-Audio和Qwen2-Audio-Instruct,而音頻摘要+ DeepSeek-R1 的表現(xiàn)優(yōu)于音頻摘要+ DeepSeek-V3。

△MMAR基準(zhǔn)上的性能比較:使用噪聲替換音頻作為輸入的影響
研究團(tuán)隊(duì)還做了一個(gè)“靈魂拷問(wèn)”實(shí)驗(yàn)——把輸入音頻換成噪聲。
結(jié)果發(fā)現(xiàn),模型性能都大幅下降,證明它們確實(shí)在“聽(tīng)”音頻,而不是靠文本先驗(yàn)瞎猜。不過(guò),Qwen-2.5-Omni在噪聲輸入下依然略高于隨機(jī)猜測(cè) ,暴露出潛在的語(yǔ)言先驗(yàn)偏差問(wèn)題。
此外,研究人員測(cè)試了多種級(jí)聯(lián)模型組合(如音頻摘要+LLM推理)。
結(jié)果顯示,更換更強(qiáng)的音頻理解模型或推理模型都能帶來(lái)性能提升,說(shuō)明感知能力和推理能力是相輔相成的。
總體來(lái)看,當(dāng)前大多數(shù)開(kāi)源模型在面對(duì)MMAR這樣的深度音頻推理任務(wù)時(shí),表現(xiàn)仍然不盡人意。
AI 到底哪里“聽(tīng)不懂”?
為了搞清楚模型失敗的原因,研究人員對(duì)提供思維鏈的Audio-Reasoner模型的錯(cuò)誤進(jìn)行了分類,發(fā)現(xiàn)主要有以下幾類:
錯(cuò)誤類型 | 占比 | 舉例說(shuō)明 |
感知錯(cuò)誤(Perceptual Errors) | 37% | 分不清是鋼琴還是吉他、聽(tīng)不出是雨聲還是鼓聲 |
推理錯(cuò)誤(Reasoning Errors) | 20% | 推理鏈條斷裂、邏輯跳躍失誤 |
知識(shí)錯(cuò)誤(Knowledge Gaps) | 9% | 缺乏對(duì)某種音樂(lè)流派或文化背景的理解 |
其他錯(cuò)誤(Others) | 34% | 包括生成崩潰、指令誤解、最終答案與推理結(jié)果不一致等 |
也就是說(shuō),現(xiàn)在的 AI 不僅“耳朵不好使”,“腦子也不太靈光”。
總結(jié)與展望
通過(guò)MMAR的測(cè)試可得以下幾個(gè)關(guān)鍵結(jié)論:
- 當(dāng)前開(kāi)源音頻大模型在音頻推理上表現(xiàn)不佳,亟需數(shù)據(jù)與算法協(xié)同創(chuàng)新;
- 模型是否具備推理能力,直接影響性能表現(xiàn);
- 閉源模型能力遠(yuǎn)遠(yuǎn)超過(guò)開(kāi)源模型,開(kāi)源社區(qū)需努力追趕;
- 近期的音視頻全模態(tài)大模型的音頻能力高于之前的音頻大模型。
在這個(gè)開(kāi)創(chuàng)性項(xiàng)目中,各參與機(jī)構(gòu)發(fā)揮了獨(dú)特的優(yōu)勢(shì)和作用。來(lái)自香港科技大學(xué)和倫敦瑪麗皇后大學(xué)的音樂(lè)科技工作者對(duì)專業(yè)的音樂(lè)題目進(jìn)行收集和標(biāo)注;2077AI的研究員提供了數(shù)據(jù)處理與標(biāo)注平臺(tái)銜接的重要保障。此外,整數(shù)智能數(shù)據(jù)工程平臺(tái)提供了專業(yè)的支持,平臺(tái)的多輪審核機(jī)制和協(xié)同標(biāo)注功能為數(shù)據(jù)質(zhì)量提供了強(qiáng)有力的保障。
研究人員希望,隨著更多研究者加入這一領(lǐng)域,人們?cè)谖磥?lái)會(huì)看到真正“聽(tīng)得懂”的AI:不僅能聽(tīng)清你在說(shuō)什么,還能聽(tīng)出你在想什么。
文章: https://arxiv.org/abs/2505.13032
代碼(GitHub):https://github.com/ddlBoJack/
MMAR數(shù)據(jù)集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR




































