偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI集體“聽不懂”!MMAR基準測試揭示音頻大模型巨大短板

人工智能 新聞
這一全新基準測試MMAR來自上海交通大學、 南洋理工大學、倫敦瑪麗皇后大學、字節(jié)跳動、2077AI開源基金會等研究機構(gòu)。

用AI來整理會議內(nèi)容,已經(jīng)是人類的常規(guī)操作。

不過,你猜怎么著?面對1000道多步驟音頻推理題時,30款AI模型竟然幾乎全軍覆沒,很多開源模型表現(xiàn)甚至接近瞎猜。

就連表現(xiàn)最好的開源模型Qwen-2.5-Omni,準確率也只有56.7%;而閉源選手Gemini 2.0 Flash則以65.6%的成績一騎絕塵,遙遙領先全場。

這一全新基準測試MMAR來自上海交通大學、 南洋理工大學、倫敦瑪麗皇后大學、字節(jié)跳動、2077AI開源基金會等研究機構(gòu)。

圖片

MMAR 是什么?它有多難?

MMAR全稱是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。

簡單來說,它是一個包含1000個高質(zhì)量問題的音頻理解評估基準,每個問題都要求模型具備多步驟的深度推理能力。

我們先來看個例子:

問題是:理發(fā)師能否聽懂英文?

在這段音頻中,被理發(fā)的人用英語反復強調(diào)自己想要的理發(fā)效果,另一個人將其翻譯成中文來幫助他強調(diào),這說明理發(fā)師不能聽懂英文,需要旁人翻譯為中文。這個問題考察音頻大模型對于多說話人交互和復雜語義的理解和推理能力,屬實不易。

而這樣的例子有整整1000題,由標注者們頭腦風暴并精心標注,還通過了嚴格的審核程序。其他的例子包括:

  • “根據(jù)聲音,判斷哪次尺子伸出桌子外的長度更長?”
  • “根據(jù)石頭落井的回聲,判斷井深度?”
  • “這三段音樂的作曲家的親子關系?”
  • “有幾個人在學說中文?”
    圖片

△MMAR基準測試中的例子

這些問題覆蓋了四個層級的推理能力:

層級

簡單解釋

信號層(Signal)

聲音的基本屬性,比如頻率、波形、節(jié)奏等

感知層(Perception)

識別聲音種類、來源、方向等

語義層(Semantic)

理解音頻內(nèi)容所表達的意義

文化層(Cultural)

結(jié)合文化背景、常識、風格等進行深層次解讀

而且,每個任務都需要多步推理,其中一些任務甚至需要極富挑戰(zhàn)性的感知技能和領域特定知識,音頻包含真實場景的語音、音樂、環(huán)境事件聲音和他們的混合,相當?shù)挠须y度。

圖片

△MMAR音頻數(shù)據(jù)的語音、音樂、環(huán)境事件聲音和他們混合的類別分布

圖片

△MMAR的推理層級和任務類別分布

測試結(jié)果:AI 在“聽”方面到底怎么樣?

研究團隊一口氣測試了30款音頻相關模型,包括 LALMs(大型音頻語言模型)、LARMs(大型音頻推理模型)、OLMs(全能型多模態(tài)模型)等等。結(jié)果讓人有點哭笑不得:

  • 開源模型中,最強的是Qwen-2.5-Omni(7B),但平均準確率也僅為56.7%,這說明MMAR的難度遠超預期;
  • 而閉源模型Gemini 2.0 Flash直接飆到了65.6%,甩開其他選手一大截;
  • 更夸張的是:大部分開源模型的表現(xiàn),幾乎跟瞎猜差不多。

這說明了什么?

說明當前大多數(shù)開源模型,在面對復雜音頻推理任務時,還遠遠沒達到實用水平。

圖片

△泊松二項分布展示了隨機猜測下準確率的P值

更令人驚訝的是,在音樂相關的任務中,幾乎所有模型都“掉了鏈子”。這說明當前模型在識別旋律、節(jié)奏結(jié)構(gòu)、作曲風格等深層次音頻信息方面仍存在巨大挑戰(zhàn)。

圖片

△五類模型在MMAR基準上的結(jié)果

其次,具有顯式推理能力的模型始終優(yōu)于不具備顯式推理能力的模型。例如,Audio-Reasoner的表現(xiàn)優(yōu)于Qwen2-Audio和Qwen2-Audio-Instruct,而音頻摘要+ DeepSeek-R1 的表現(xiàn)優(yōu)于音頻摘要+ DeepSeek-V3。

圖片

△MMAR基準上的性能比較:使用噪聲替換音頻作為輸入的影響

研究團隊還做了一個“靈魂拷問”實驗——把輸入音頻換成噪聲。

結(jié)果發(fā)現(xiàn),模型性能都大幅下降,證明它們確實在“聽”音頻,而不是靠文本先驗瞎猜。不過,Qwen-2.5-Omni在噪聲輸入下依然略高于隨機猜測 ,暴露出潛在的語言先驗偏差問題。

此外,研究人員測試了多種級聯(lián)模型組合(如音頻摘要+LLM推理)。

結(jié)果顯示,更換更強的音頻理解模型或推理模型都能帶來性能提升,說明感知能力和推理能力是相輔相成的。

總體來看,當前大多數(shù)開源模型在面對MMAR這樣的深度音頻推理任務時,表現(xiàn)仍然不盡人意。

AI 到底哪里“聽不懂”?

為了搞清楚模型失敗的原因,研究人員對提供思維鏈的Audio-Reasoner模型的錯誤進行了分類,發(fā)現(xiàn)主要有以下幾類:

錯誤類型

占比

舉例說明

感知錯誤(Perceptual Errors)

37%

分不清是鋼琴還是吉他、聽不出是雨聲還是鼓聲

推理錯誤(Reasoning Errors)

20%

推理鏈條斷裂、邏輯跳躍失誤

知識錯誤(Knowledge Gaps)

9%

缺乏對某種音樂流派或文化背景的理解

其他錯誤(Others)

34%

包括生成崩潰、指令誤解、最終答案與推理結(jié)果不一致等

也就是說,現(xiàn)在的 AI 不僅“耳朵不好使”,“腦子也不太靈光”。

總結(jié)與展望

通過MMAR的測試可得以下幾個關鍵結(jié)論:

  1. 當前開源音頻大模型在音頻推理上表現(xiàn)不佳,亟需數(shù)據(jù)與算法協(xié)同創(chuàng)新;
  2. 模型是否具備推理能力,直接影響性能表現(xiàn);
  3. 閉源模型能力遠遠超過開源模型,開源社區(qū)需努力追趕;
  4. 近期的音視頻全模態(tài)大模型的音頻能力高于之前的音頻大模型。

在這個開創(chuàng)性項目中,各參與機構(gòu)發(fā)揮了獨特的優(yōu)勢和作用。來自香港科技大學和倫敦瑪麗皇后大學的音樂科技工作者對專業(yè)的音樂題目進行收集和標注;2077AI的研究員提供了數(shù)據(jù)處理與標注平臺銜接的重要保障。此外,整數(shù)智能數(shù)據(jù)工程平臺提供了專業(yè)的支持,平臺的多輪審核機制和協(xié)同標注功能為數(shù)據(jù)質(zhì)量提供了強有力的保障。

研究人員希望,隨著更多研究者加入這一領域,人們在未來會看到真正“聽得懂”的AI:不僅能聽清你在說什么,還能聽出你在想什么。

文章: https://arxiv.org/abs/2505.13032

代碼(GitHub):https://github.com/ddlBoJack/

MMAR數(shù)據(jù)集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-04-01 08:00:00

AI模型

2025-04-14 00:10:00

人工智能AIAI 模型

2025-05-26 08:33:00

2025-05-21 08:47:00

2025-05-23 08:47:00

2025-05-28 10:31:13

2025-05-30 03:10:00

AISeePhys多模態(tài)短板

2023-10-28 13:29:27

2024-04-08 13:29:52

2023-11-07 07:00:37

2023-01-20 17:53:37

云原生K8sRancher

2025-06-24 09:05:00

AI模型訓練

2024-04-15 13:51:03

模型LLMLLMs

2024-12-25 08:02:17

人工智能AI運維

2011-04-12 12:53:17

2023-07-05 09:57:11

2013-05-07 09:47:30

測試MySQLMySQL測試

2024-09-29 13:10:08

2023-05-10 14:40:40

AI模型算力
點贊
收藏

51CTO技術棧公眾號