SALMONN 系列音視頻理解大模型霸榜回歸!推理增強、高幀率、無文本泄漏全線突破
SALMONN 家族在首個通用音頻理解模型(ICLR 2024)和首個全要素音視頻理解模型 video-SALMONN(ICML 2024)基礎上再次迎來重磅擴容,霸榜各大音視頻理解榜單!
全新一代 video-SALMONN 2/2+、首個開源推理增強型音視頻理解大模型 video-SALMONN-o1(ICML 2025)、首個高幀率視頻理解大模型 F-16(ICML 2025),以及無文本泄漏基準測試 AVUT(EMNLP 2025) 正式發(fā)布。新陣容在視頻理解能力與評測體系全線突破,全面鞏固 SALMONN 家族在開源音視頻理解大模型賽道的領先地位。

圖像由 Nano-Banana 生成
新旗艦登場video-SALMONN 2+
video-SALMONN 2+ 是首個專注于高質量、完整視頻描述的音視頻大語言模型。通過原子事件級的評估體系與 MrDPO 多輪強化學習優(yōu)化,它大幅減少信息遺漏和幻覺。在字幕完整性和準確性指標上取得最好結果(SOTA)。

研究團隊進一步發(fā)現(xiàn):利用該模型大規(guī)模生成高質量描述,并將其反哺新模型訓練,不僅能保持強描述能力,還能顯著提升問答等音視頻理解任務表現(xiàn)。
最終,video-SALMONN 2+ 在 Video-MME、 WorldSense、AVUT、Video-Holmes、DailyOmni 等音視頻理解榜單,MLVU、LVBench 等靜音視頻理解榜單上全面領先。72B 版本整體性能超越 GPT-4o、Google Gemini 1.5 Pro 等閉源巨頭。
得益于對音頻模態(tài)的同步利用,video-SALMONN 2+ 系列在 Video-MME 等榜單上,無字幕(端到端真實系統(tǒng))與有字幕(外掛人工標注或商業(yè)語音識別系統(tǒng)生成的理想字幕)之間的性能差距小于 2%。這表明音視頻聯(lián)動能有效增強語義理解能力,并能在無人工字幕的視頻與具身機器人等場景中具有明顯優(yōu)勢。

研究團隊首先以 Qwen 2.5-VL 7B 為底座構建音視頻模型,經上述音視頻訓練流程及 MrDPO 訓練得到 video-SALMONN 2+ 7B。隨后,利用該模型對更大規(guī)模的音視頻數(shù)據進行高質量描述標注,并以此為數(shù)據源,訓練基于 Qwen 2.5-VL 3B/72B 的音視頻大模型,最終獲得 video-SALMONN 2+ 3B/72B。實驗顯示,相比僅用原始標注數(shù)據訓練的基線,新模型在視頻理解能力上實現(xiàn)了全面提升。

Video-MME 數(shù)據集上的消融實驗結果結果驗證了該的技術路徑有效性:高描述能力模型可充當高質量訓練數(shù)據的 “生成器”,為更強音視頻理解模型提供可靠的數(shù)據基礎,推動模型持續(xù)迭代與性能躍升。
推理增強,讓模型真正看懂video-SALMONN-o1(ICML 2025)


問題: 表演者為什么想成為黑山公民?選擇:
A. 因為黑山是個美麗的國家
B. 因為他想住在一個名字匹配他膚色的國家
C. 他想成為一座山
D. 他覺得黑山的人都很有吸引力
E. 他覺得這個國家的名字聽起來很酷
video-SALMONN-o1 推理:
喜劇演員說歐洲有一個國家叫做黑山。
然后他重復了一遍這個名字,強調它的獨特性:“有一個滿是白人的國家,叫做黑山。”
他表示自己很想成為其中一員,甚至開玩笑說要把國籍改成黑山。
他想成為黑山公民的理由是:那是一個美麗的地方,而且名字與他的膚色相符。
因此,答案是 B. 他想生活在一個與自己膚色相符的國家


問題: 表演者談到了直男在照片中的習慣。為什么觀眾會笑呢?請從以下選項中選擇:
A. 表演者的襯衫很好笑。
B. 表演者讓觀眾想起了他們的朋友。
C. 觀眾感到被冒犯了,于是尷尬地笑了。
D. 表演者是女性,覺得取笑直男很有趣。
E. 光是想象就覺得好笑,而表演者還把它演出來了。
video-SALMONN-o1 推理:
表演者在開直男的玩笑,說他們拍照時喜歡抬著下巴擺姿勢。
然后他親自模仿了這種姿勢,并加以夸張來制造喜劇效果。
觀眾之所以發(fā)笑,是因為他們能夠產生共鳴,并覺得這種擺姿勢的行為本身就很滑稽。
因此,答案是 E. 光是想象就覺得好笑,而表演者還把它演出來了。


問題: 這個視頻里有什么笑話以及為什么好笑?請逐步詳細分析
video-SALMONN-o1 推理:
笑點在于:美國副總統(tǒng)喬?拜登寫了一本自傳。
說話者(很可能是個喜劇演員或觀眾)說他覺得這本書比實際好得多。
這很有趣,因為它利用了一個常見的觀念 —— 政治人物往往會把自己描繪得比他們真正值得的更正面。
說話者暗示拜登的自傳好得令人難以置信,這是一種對情境的幽默夸張。
在脫口秀等復雜視頻中,深層理解不僅依賴于音頻與視覺的聯(lián)合感知,還需要在此基礎上開展多步推理。video-SALMONN-o1 是首個推理增強的開源音視頻大語言模型:相較于同類開源系統(tǒng)直接輸出答案,它可以同時接收音頻與視頻輸入,執(zhí)行基于證據的逐步推理并給出結論,實現(xiàn)結果與理由的一致性。實驗觀察表明,針對數(shù)學 / 編程的文本推理優(yōu)化,或以圖文為主的推理范式,難以有效泛化至音視頻理解;video-SALMONN-o1 以音視頻原生的過程監(jiān)督與推理優(yōu)化,拓寬了推理的應用邊界,使大模型能以推理為核心更全面地理解物理世界。


問題: 雙胞胎研究如何分離 TBI(創(chuàng)傷性腦損傷)對癡呆風險的影響。請逐步分析。
video-SALMONN-o1 推理:
問題在于雙胞胎研究如何分離 TBI(創(chuàng)傷性腦損傷)對癡呆風險的影響。我們需要明確該研究中有哪些關鍵要素,能夠幫助把 TBI 的作用與其他影響癡呆的因素區(qū)分開來。
講者提到,該研究采用 “雙胞胎配對” 設計,也就是說比較雙胞胎個體。這意味著研究重點在于控制遺傳因素和共同的環(huán)境因素。
講者強調,研究中的雙胞胎在 TBI 上是不一致的(即一人有 TBI,另一人沒有),在癡呆發(fā)病上也是不一致的(即一人發(fā)展為癡呆,另一人沒有)。這種設計使研究者能夠控制早期的遺傳和環(huán)境暴露因素,因為這些在雙胞胎之間是相似的。
通過比較在 TBI 經歷和癡呆結果上不同的雙胞胎,研究就能隔離出 TBI 對癡呆風險的影響。如果 TBI 是一個重要的風險因素,我們就會預期:有 TBI 的雙胞胎更容易發(fā)展為癡呆,而沒有 TBI 的雙胞胎則相對較少出現(xiàn)癡呆。
在脫口秀、學術演講等復雜音視頻場景中,理解不僅依賴于音頻與視覺的聯(lián)合感知,還需要在此基礎上開展多步推理。video-SALMONN-o1 是首個推理增強的開源音視頻大語言模型:相較于同類開源系統(tǒng)直接輸出答案,它可以同時接收音頻與視頻輸入,執(zhí)行基于證據的逐步推理并給出結論,實現(xiàn)結果與理由的一致性。實驗觀察表明,針對數(shù)學 / 編程的文本推理,以及圖文推理,均難以泛化至音視頻場景;video-SALMONN-o1 以音視頻原生的過程監(jiān)督與推理優(yōu)化,拓寬了推理的應用邊界,使大模型能以推理為核心更全面準確的理解物理世界。
核心算法 process DPO

pDPO rollout 和 contrastive step selection 示意圖
Process DPO(pDPO) 是 video-SALMONN-o1 核心提出的訓練方法。與傳統(tǒng)過程獎勵函數(shù)(PRM) 同樣關注逐步(step-level) 優(yōu)化不同,pDPO 面向音視頻場景中自檢能力弱、難以獲得穩(wěn)定步驟級獎勵的問題,改用偏好優(yōu)化路徑:在每一步開始時采樣兩個候選下一步 sk 與 s’k,分別進行推理展開(rollout),依據展開結果的正確性比較兩者優(yōu)劣,并將 DPO 損失細化到步驟級進行優(yōu)化。
針對大量 rollout 帶來的計算開銷,pDPO 進一步引入基于擾動的不確定性估計:通過對當前狀態(tài)施加微小擾動、觀察輸出變化來評估各步的不確定性,僅對不確定性高的關鍵步驟執(zhí)行偏好對比與優(yōu)化,從而顯著降低計算成本。
高幀率突破,捕捉決定性瞬間F-16(ICML 2025)
F-16 是首個為高幀率視頻理解而生的大模型。人眼感知遠超 30FPS,體育直播、電競高光、快速切鏡這些關鍵時刻,高幀率決定你能不能 “看全、看準”。遺憾的是,多數(shù)視頻大模型還停留在 1 FPS 左右 的低采樣,信息大量流失;簡單拉高幀率又會把算力 “燒空”。
F-16 的答案是多幀聯(lián)合對齊壓縮。它把多幀特征一起送入對齊器,一邊對齊語義、一邊做高效壓縮,既保住圖像編碼器的預訓練語義,又把計算成本壓下來。結果很直接:在通用視頻理解基準上,F(xiàn)-16 追平并改寫同時期同規(guī)模純視覺開源模型 SOTA 結果;在運動等高幀率任務上穩(wěn)居 SOTA。

從左到右: FPS = 16、FPS = 1、FPS = 16、FPS = 1

更直觀的結果來了:在籃足體跳四大體育任務上,用同一訓練數(shù)據微調的 F-16 高幀率模型不僅全線壓過低幀率基線,還跑贏 GPT-4o、Gemini 1.5 Pro 等頭部閉源模型,再次驗證了高幀率信息的價值。

該研究系統(tǒng)性驗證了高幀率信息在通用視頻理解中的關鍵作用,為后續(xù)對高幀率視頻理解模型的深入探索奠定了堅實基礎。
降低文本泄漏,打造公正的評測基準:AVUT(EMNLP 2025)
AVUT 聚焦通用場景下的音視頻理解,涵蓋信息獲取、內容計數(shù)、事件定位與匹配、說話人日志等多類任務。其中很多測試依賴非語音的音頻事件等模態(tài)線索,單純的語音轉文本無法覆蓋,這也凸顯了音視頻協(xié)同理解的必要性。
值得警惕的是,音視頻理解任務中有一個常被忽略的大坑:文本短路。很多評測里,模型哪怕不看視頻,只看題目和選項就能答對(見下表 Text-only Accuracy%)。這意味著不少 “高分”,其實并非真正的音視頻理解。

如上表所示,在多項常用數(shù)據集中,GPT-4o 模型僅依賴文本即可取得較高的準確率。為此,我們提出 AVUT 測試集,一方面平衡音頻、視頻與文本三種模態(tài)的貢獻,另一方面有效抑制文本捷徑,直擊 “只看文本也能答對” 的評測痛點。
我們還引入了 Cycled Accuracy%:把每道題的選項打亂重排 (ABCD, BCDA, CDAB, DABC),將正確答案依次放在不同位置,只有模型在所有排列里都選同一答案才算對。這樣就能有效抑制 “位置偏好” 造成的水分(比如不確定就 “蒙 C”)。結果顯示,AVUT 數(shù)據能夠避免 “偏好型刷分”。
隨著 video-SALMONN 2+ 領跑榜單、video-SALMONN-o1 推理增強落地、F-16 高幀率架構升級,以及以音頻為核心的 AVUT 基準建立,SALMONN 家族已形成從模型到評測、從效率到效果的完整閉環(huán)。它不僅刷新了開源視頻理解的上限,也為產業(yè)與學術界提供了有效的方法創(chuàng)新和可靠的對比標準。面向真實世界的多模態(tài)場景,SALMONN 的這次 “集群式” 進化正把視頻理解推向 “看得懂、聽得準、答得明”。未來,SALMONN 系列將持續(xù)迭代,帶來更強模型與更完善生態(tài)!
團隊介紹
清華大學電子工程系多媒體信號與智能信息處理實驗室在醫(yī)工交叉和語音處理領域有長期積淀。實驗室的張超研究小組成立于 2022 年,專注于多模態(tài)大語言模型、腦信號解碼與大腦健康研究。
SALMONN 系列開源地址:https://github.com/bytedance/SALMONN
論文地址:
- video-SALMONN 2:https://arxiv.org/abs/2506.15220
- video-SALMONN-o1:https://openreview.net/pdf?id=y62fhuA69I
- F-16:https://openreview.net/pdf?id=3H7qAT9Qow
- AVUT Benchmark:https://arxiv.org/abs/2503.19951

































