火山引擎多媒體實(shí)驗(yàn)室畫質(zhì)理解大模型 Q-Insight 入選 NeurIPS 2025 Spotlight

會(huì)議背景
近日,NeurIPS 2025公布了錄用結(jié)果,該會(huì)議是機(jī)器學(xué)習(xí)與人工智能領(lǐng)域最具影響力的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一。據(jù)悉本次會(huì)議共有21575篇投稿進(jìn)入審稿階段,最終5290篇論文被錄用,錄用論文中共有688篇論文(入選比例3%)被選為亮點(diǎn)文章(Spotlight)。
火山引擎多媒體實(shí)驗(yàn)室和北京大學(xué)合作的論文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被選為本次會(huì)議亮點(diǎn)文章。
Q-Insight:首個(gè)推理式畫質(zhì)理解大模型
論文背景

在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環(huán)節(jié)大多都基于一個(gè)核心問題展開,即人眼的畫質(zhì)感知。多模態(tài)大模型的快速發(fā)展為新時(shí)代的音視頻技術(shù)帶來了新的機(jī)遇,面對(duì)人眼感知的畫質(zhì)理解提供了一種全新的解決方案。
以往的畫質(zhì)理解的方法主要分為兩類:(1)評(píng)分型方法,這類方法通常只能提供單一的數(shù)值評(píng)分,缺乏明確的解釋性,難以深入理解圖像質(zhì)量背后的原因;(2)描述型方法,這類方法嚴(yán)重依賴于大規(guī)模文本描述數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),對(duì)標(biāo)注數(shù)據(jù)的需求巨大,泛化能力和靈活性不足。
多任務(wù)群組相對(duì)策略優(yōu)化
針對(duì)上述問題,北京大學(xué)與火山引擎多媒體實(shí)驗(yàn)室的研究人員聯(lián)合提出了基于強(qiáng)化學(xué)習(xí)訓(xùn)練的多模態(tài)大模型圖像畫質(zhì)理解方案 Q-Insight。與以往方法不同的是,Q-Insight 不再簡(jiǎn)單地讓模型擬合人眼打分,而是將評(píng)分視作一種引導(dǎo)信號(hào),創(chuàng)造性地運(yùn)用了“群組相對(duì)策略優(yōu)化”(GRPO)算法,不再依賴大量的文本監(jiān)督標(biāo)注,而是挖掘大模型自身的推理潛力,促使模型深度思考圖像質(zhì)量的本質(zhì)原因。Q-Insight 在質(zhì)量評(píng)分、退化感知、多圖比較、原因解釋等多個(gè)任務(wù)上均達(dá)到業(yè)界領(lǐng)先水平,具備出色的準(zhǔn)確性和泛化推理能力,并且不依賴大量高成本的文本數(shù)據(jù)標(biāo)注。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結(jié)果,而是提供了從多個(gè)角度綜合評(píng)估畫質(zhì)的詳細(xì)推理過程。

在實(shí)際訓(xùn)練過程中,我們發(fā)現(xiàn)單獨(dú)以評(píng)分作為引導(dǎo)無法充分實(shí)現(xiàn)良好的畫質(zhì)理解,原因是模型對(duì)圖像退化現(xiàn)象不夠敏感。為了解決這一問題,我們創(chuàng)新性地引入了多任務(wù) GRPO 優(yōu)化,設(shè)計(jì)了可驗(yàn)證的評(píng)分獎(jiǎng)勵(lì)、退化分類獎(jiǎng)勵(lì)和強(qiáng)度感知獎(jiǎng)勵(lì),聯(lián)合訓(xùn)練評(píng)分回歸與退化感知任務(wù)。這種多任務(wù)聯(lián)合訓(xùn)練的策略,顯著提高了各個(gè)任務(wù)的表現(xiàn),證明了任務(wù)之間存在的強(qiáng)互補(bǔ)關(guān)系。

實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果充分驗(yàn)證了 Q-Insight 在圖像質(zhì)量評(píng)分、退化檢測(cè)和零樣本推理任務(wù)中的卓越表現(xiàn):在圖像質(zhì)量評(píng)分任務(wù)上,Q-Insight 在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)均超過當(dāng)前最先進(jìn)的方法,特別是在域外數(shù)據(jù)上的泛化能力突出,并能夠提供完整詳細(xì)的推理過程。
- 在圖像質(zhì)量評(píng)分任務(wù)上,Q-Insight 在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)均超過當(dāng)前最先進(jìn)的方法,特別是在域外數(shù)據(jù)上的泛化能力突出,并能夠提供完整詳細(xì)的推理過程。
 


- 在退化感知任務(wù)上,Q-Insight 的表現(xiàn)顯著優(yōu)于現(xiàn)有的退化感知模型,尤其是在噪聲(Noise)和 JPEG 壓縮退化類型識(shí)別的準(zhǔn)確性上。
 

- 在圖像比較推理任務(wù)上,Q-Insight 可只需少量數(shù)據(jù),即可超越當(dāng)前最先進(jìn)的圖像比較方法。
 


從Q-Insight到VQ-Insight:AIGC視頻畫質(zhì)理解大模型
圖像只捕捉視頻的一個(gè)切片,用戶真實(shí)的視頻觀看體驗(yàn)還取決于時(shí)間維度:運(yùn)動(dòng)是否自然?色彩是否在動(dòng)態(tài)中穩(wěn)定?因此,我們把 Q-Insight 的“推理式+強(qiáng)化學(xué)習(xí)”思路,拓展到自然視頻和 AIGC 視頻的評(píng)估和偏好比較中,提出了 VQ-Insight。

VQ-Insight 強(qiáng)大的 AIGC 視頻偏好比較能力,可直接應(yīng)用于視頻生成模型的直接偏好優(yōu)化(DPO)。如圖所示,基于 VQ-Insight 的方案相比于生成模型基線和對(duì)比方法,有效地緩解了錯(cuò)誤生成的問題,并有著更鮮艷的色彩和動(dòng)態(tài)。

相關(guān)鏈接
- ??Q-Insight:
https://arxiv.org/pdf/2503.22679 - ??VQ-Insight:
https://arxiv.org/pdf/2506.18564 - ??訓(xùn)練與推理代碼:
https://github.com/bytedance/Q-Insight - ??開源模型:
https://huggingface.co/ByteDance/Q-Insight 
總結(jié)
Q-Insight 將“感知-打分—比較—推理”統(tǒng)一到一個(gè)可解釋的學(xué)習(xí)框架中,既給出可靠評(píng)分,也產(chǎn)出問題分析和可執(zhí)行的改進(jìn)線索;VQ-Insight 在此基礎(chǔ)上把理解從幀內(nèi)拓展到時(shí)域,支持真實(shí)/生成視頻的連貫性與人類偏好一致性評(píng)估。未來,我們將進(jìn)一步深度耦合強(qiáng)化學(xué)習(xí)與多模態(tài)推理——一方面,讓 Q-Insight 走向更廣任務(wù)(如圖像美學(xué)評(píng)估),作為強(qiáng)判別信號(hào)驅(qū)動(dòng)圖像增強(qiáng)/重建,作為“質(zhì)量評(píng)估中樞”聯(lián)動(dòng)各類重建工具;另一方面,讓 VQ-Insight 成為生成視頻訓(xùn)練的可插拔獎(jiǎng)勵(lì)與偏好模塊,把“看得準(zhǔn)”轉(zhuǎn)化為“變得更好”。















 
 
 








 
 
 
 