偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="6ciio"></big>

<li id="6ciio"></li>

<kbd id="6ciio"><tr id="6ciio"></tr></kbd>

<bdo id="6ciio"><source id="6ciio"></source></bdo>

<tr id="6ciio"></tr>

<abbr id="6ciio"><table id="6ciio"></table></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI集體“聽(tīng)不懂”！MMAR基準(zhǔn)測(cè)試揭示音頻大模型巨大短板

2025-06-10 09:10:00

人工智能新聞

這一全新基準(zhǔn)測(cè)試MMAR來(lái)自上海交通大學(xué)、南洋理工大學(xué)、倫敦瑪麗皇后大學(xué)、字節(jié)跳動(dòng)、2077AI開(kāi)源基金會(huì)等研究機(jī)構(gòu)。

用AI來(lái)整理會(huì)議內(nèi)容，已經(jīng)是人類的常規(guī)操作。

不過(guò)，你猜怎么著？面對(duì)1000道多步驟音頻推理題時(shí)，30款A(yù)I模型竟然幾乎全軍覆沒(méi)，很多開(kāi)源模型表現(xiàn)甚至接近瞎猜。

就連表現(xiàn)最好的開(kāi)源模型Qwen-2.5-Omni，準(zhǔn)確率也只有56.7%；而閉源選手Gemini 2.0 Flash則以65.6%的成績(jī)一騎絕塵，遙遙領(lǐng)先全場(chǎng)。

這一全新基準(zhǔn)測(cè)試MMAR來(lái)自上海交通大學(xué)、南洋理工大學(xué)、倫敦瑪麗皇后大學(xué)、字節(jié)跳動(dòng)、2077AI開(kāi)源基金會(huì)等研究機(jī)構(gòu)。

MMAR 是什么？它有多難？

MMAR全稱是：A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。

簡(jiǎn)單來(lái)說(shuō)，它是一個(gè)包含1000個(gè)高質(zhì)量問(wèn)題的音頻理解評(píng)估基準(zhǔn)，每個(gè)問(wèn)題都要求模型具備多步驟的深度推理能力。

我們先來(lái)看個(gè)例子：

問(wèn)題是：理發(fā)師能否聽(tīng)懂英文？

在這段音頻中，被理發(fā)的人用英語(yǔ)反復(fù)強(qiáng)調(diào)自己想要的理發(fā)效果，另一個(gè)人將其翻譯成中文來(lái)幫助他強(qiáng)調(diào)，這說(shuō)明理發(fā)師不能聽(tīng)懂英文，需要旁人翻譯為中文。這個(gè)問(wèn)題考察音頻大模型對(duì)于多說(shuō)話人交互和復(fù)雜語(yǔ)義的理解和推理能力，屬實(shí)不易。

而這樣的例子有整整1000題，由標(biāo)注者們頭腦風(fēng)暴并精心標(biāo)注，還通過(guò)了嚴(yán)格的審核程序。其他的例子包括：

“根據(jù)聲音，判斷哪次尺子伸出桌子外的長(zhǎng)度更長(zhǎng)？”
“根據(jù)石頭落井的回聲，判斷井深度？”
“這三段音樂(lè)的作曲家的親子關(guān)系？”
“有幾個(gè)人在學(xué)說(shuō)中文？”

△MMAR基準(zhǔn)測(cè)試中的例子

這些問(wèn)題覆蓋了四個(gè)層級(jí)的推理能力：

層級(jí)	簡(jiǎn)單解釋
信號(hào)層（Signal）	聲音的基本屬性，比如頻率、波形、節(jié)奏等
感知層（Perception）	識(shí)別聲音種類、來(lái)源、方向等
語(yǔ)義層（Semantic）	理解音頻內(nèi)容所表達(dá)的意義
文化層（Cultural）	結(jié)合文化背景、常識(shí)、風(fēng)格等進(jìn)行深層次解讀

而且，每個(gè)任務(wù)都需要多步推理，其中一些任務(wù)甚至需要極富挑戰(zhàn)性的感知技能和領(lǐng)域特定知識(shí)，音頻包含真實(shí)場(chǎng)景的語(yǔ)音、音樂(lè)、環(huán)境事件聲音和他們的混合，相當(dāng)?shù)挠须y度。

△MMAR音頻數(shù)據(jù)的語(yǔ)音、音樂(lè)、環(huán)境事件聲音和他們混合的類別分布

△MMAR的推理層級(jí)和任務(wù)類別分布

測(cè)試結(jié)果：AI 在“聽(tīng)”方面到底怎么樣？

研究團(tuán)隊(duì)一口氣測(cè)試了30款音頻相關(guān)模型，包括 LALMs（大型音頻語(yǔ)言模型）、LARMs（大型音頻推理模型）、OLMs（全能型多模態(tài)模型）等等。結(jié)果讓人有點(diǎn)哭笑不得：

開(kāi)源模型中，最強(qiáng)的是Qwen-2.5-Omni（7B），但平均準(zhǔn)確率也僅為56.7%，這說(shuō)明MMAR的難度遠(yuǎn)超預(yù)期；
而閉源模型Gemini 2.0 Flash直接飆到了65.6%，甩開(kāi)其他選手一大截；
更夸張的是：大部分開(kāi)源模型的表現(xiàn)，幾乎跟瞎猜差不多。

這說(shuō)明了什么？

說(shuō)明當(dāng)前大多數(shù)開(kāi)源模型，在面對(duì)復(fù)雜音頻推理任務(wù)時(shí)，還遠(yuǎn)遠(yuǎn)沒(méi)達(dá)到實(shí)用水平。

△泊松二項(xiàng)分布展示了隨機(jī)猜測(cè)下準(zhǔn)確率的P值

更令人驚訝的是，在音樂(lè)相關(guān)的任務(wù)中，幾乎所有模型都“掉了鏈子”。這說(shuō)明當(dāng)前模型在識(shí)別旋律、節(jié)奏結(jié)構(gòu)、作曲風(fēng)格等深層次音頻信息方面仍存在巨大挑戰(zhàn)。

△五類模型在MMAR基準(zhǔn)上的結(jié)果

其次，具有顯式推理能力的模型始終優(yōu)于不具備顯式推理能力的模型。例如，Audio-Reasoner的表現(xiàn)優(yōu)于Qwen2-Audio和Qwen2-Audio-Instruct，而音頻摘要+ DeepSeek-R1 的表現(xiàn)優(yōu)于音頻摘要+ DeepSeek-V3。

△MMAR基準(zhǔn)上的性能比較：使用噪聲替換音頻作為輸入的影響

研究團(tuán)隊(duì)還做了一個(gè)“靈魂拷問(wèn)”實(shí)驗(yàn)——把輸入音頻換成噪聲。

結(jié)果發(fā)現(xiàn)，模型性能都大幅下降，證明它們確實(shí)在“聽(tīng)”音頻，而不是靠文本先驗(yàn)瞎猜。不過(guò)，Qwen-2.5-Omni在噪聲輸入下依然略高于隨機(jī)猜測(cè) ，暴露出潛在的語(yǔ)言先驗(yàn)偏差問(wèn)題。

此外，研究人員測(cè)試了多種級(jí)聯(lián)模型組合（如音頻摘要+LLM推理）。

結(jié)果顯示，更換更強(qiáng)的音頻理解模型或推理模型都能帶來(lái)性能提升，說(shuō)明感知能力和推理能力是相輔相成的。

總體來(lái)看，當(dāng)前大多數(shù)開(kāi)源模型在面對(duì)MMAR這樣的深度音頻推理任務(wù)時(shí)，表現(xiàn)仍然不盡人意。

AI 到底哪里“聽(tīng)不懂”？

為了搞清楚模型失敗的原因，研究人員對(duì)提供思維鏈的Audio-Reasoner模型的錯(cuò)誤進(jìn)行了分類，發(fā)現(xiàn)主要有以下幾類：

錯(cuò)誤類型	占比	舉例說(shuō)明
感知錯(cuò)誤（Perceptual Errors）	37%	分不清是鋼琴還是吉他、聽(tīng)不出是雨聲還是鼓聲
推理錯(cuò)誤（Reasoning Errors）	20%	推理鏈條斷裂、邏輯跳躍失誤
知識(shí)錯(cuò)誤（Knowledge Gaps）	9%	缺乏對(duì)某種音樂(lè)流派或文化背景的理解
其他錯(cuò)誤（Others）	34%	包括生成崩潰、指令誤解、最終答案與推理結(jié)果不一致等

也就是說(shuō)，現(xiàn)在的 AI 不僅“耳朵不好使”，“腦子也不太靈光”。

總結(jié)與展望

通過(guò)MMAR的測(cè)試可得以下幾個(gè)關(guān)鍵結(jié)論：

當(dāng)前開(kāi)源音頻大模型在音頻推理上表現(xiàn)不佳，亟需數(shù)據(jù)與算法協(xié)同創(chuàng)新；
模型是否具備推理能力，直接影響性能表現(xiàn)；
閉源模型能力遠(yuǎn)遠(yuǎn)超過(guò)開(kāi)源模型，開(kāi)源社區(qū)需努力追趕；
近期的音視頻全模態(tài)大模型的音頻能力高于之前的音頻大模型。

在這個(gè)開(kāi)創(chuàng)性項(xiàng)目中，各參與機(jī)構(gòu)發(fā)揮了獨(dú)特的優(yōu)勢(shì)和作用。來(lái)自香港科技大學(xué)和倫敦瑪麗皇后大學(xué)的音樂(lè)科技工作者對(duì)專業(yè)的音樂(lè)題目進(jìn)行收集和標(biāo)注；2077AI的研究員提供了數(shù)據(jù)處理與標(biāo)注平臺(tái)銜接的重要保障。此外，整數(shù)智能數(shù)據(jù)工程平臺(tái)提供了專業(yè)的支持，平臺(tái)的多輪審核機(jī)制和協(xié)同標(biāo)注功能為數(shù)據(jù)質(zhì)量提供了強(qiáng)有力的保障。

研究人員希望，隨著更多研究者加入這一領(lǐng)域，人們?cè)谖磥?lái)會(huì)看到真正“聽(tīng)得懂”的AI：不僅能聽(tīng)清你在說(shuō)什么，還能聽(tīng)出你在想什么。

文章: https://arxiv.org/abs/2505.13032

代碼(GitHub)：https://github.com/ddlBoJack/

MMAR數(shù)據(jù)集(HuggingFace)：https://huggingface.co/datasets/BoJack/MMAR

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 測(cè)試模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tfoot id="k7204"></tfoot>