偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

火山引擎多媒體實(shí)驗(yàn)室畫質(zhì)理解大模型 Q-Insight 入選 NeurIPS 2025 Spotlight

人工智能
北京大學(xué)與火山引擎多媒體實(shí)驗(yàn)室的研究人員聯(lián)合提出了基于強(qiáng)化學(xué)習(xí)訓(xùn)練的多模態(tài)大模型圖像畫質(zhì)理解方案 Q-Insight。與以往方法不同的是,Q-Insight 不再簡(jiǎn)單地讓模型擬合人眼打分,而是將評(píng)分視作一種引導(dǎo)信號(hào),創(chuàng)造性地運(yùn)用了“群組相對(duì)策略優(yōu)化”(GRPO)算法,不再依賴大量的文本監(jiān)督標(biāo)注,而是挖掘大模型自身的推理潛力,促使模型深度思考圖像質(zhì)量的本質(zhì)原因。

會(huì)議背景

近日,NeurIPS 2025公布了錄用結(jié)果,該會(huì)議是機(jī)器學(xué)習(xí)與人工智能領(lǐng)域最具影響力的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一。據(jù)悉本次會(huì)議共有21575篇投稿進(jìn)入審稿階段,最終5290篇論文被錄用,錄用論文中共有688篇論文(入選比例3%)被選為亮點(diǎn)文章(Spotlight)。

火山引擎多媒體實(shí)驗(yàn)室和北京大學(xué)合作的論文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被選為本次會(huì)議亮點(diǎn)文章。

Q-Insight:首個(gè)推理式畫質(zhì)理解大模型

論文背景

在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環(huán)節(jié)大多都基于一個(gè)核心問題展開,即人眼的畫質(zhì)感知。多模態(tài)大模型的快速發(fā)展為新時(shí)代的音視頻技術(shù)帶來了新的機(jī)遇,面對(duì)人眼感知的畫質(zhì)理解提供了一種全新的解決方案。

以往的畫質(zhì)理解的方法主要分為兩類:(1)評(píng)分型方法,這類方法通常只能提供單一的數(shù)值評(píng)分,缺乏明確的解釋性,難以深入理解圖像質(zhì)量背后的原因;(2)描述型方法,這類方法嚴(yán)重依賴于大規(guī)模文本描述數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),對(duì)標(biāo)注數(shù)據(jù)的需求巨大,泛化能力和靈活性不足。

多任務(wù)群組相對(duì)策略優(yōu)化

針對(duì)上述問題,北京大學(xué)與火山引擎多媒體實(shí)驗(yàn)室的研究人員聯(lián)合提出了基于強(qiáng)化學(xué)習(xí)訓(xùn)練的多模態(tài)大模型圖像畫質(zhì)理解方案 Q-Insight。與以往方法不同的是,Q-Insight 不再簡(jiǎn)單地讓模型擬合人眼打分,而是將評(píng)分視作一種引導(dǎo)信號(hào),創(chuàng)造性地運(yùn)用了“群組相對(duì)策略優(yōu)化”(GRPO)算法,不再依賴大量的文本監(jiān)督標(biāo)注,而是挖掘大模型自身的推理潛力,促使模型深度思考圖像質(zhì)量的本質(zhì)原因。Q-Insight 在質(zhì)量評(píng)分、退化感知、多圖比較、原因解釋等多個(gè)任務(wù)上均達(dá)到業(yè)界領(lǐng)先水平,具備出色的準(zhǔn)確性和泛化推理能力,并且不依賴大量高成本的文本數(shù)據(jù)標(biāo)注。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結(jié)果,而是提供了從多個(gè)角度綜合評(píng)估畫質(zhì)的詳細(xì)推理過程。

在實(shí)際訓(xùn)練過程中,我們發(fā)現(xiàn)單獨(dú)以評(píng)分作為引導(dǎo)無法充分實(shí)現(xiàn)良好的畫質(zhì)理解,原因是模型對(duì)圖像退化現(xiàn)象不夠敏感。為了解決這一問題,我們創(chuàng)新性地引入了多任務(wù) GRPO 優(yōu)化,設(shè)計(jì)了可驗(yàn)證的評(píng)分獎(jiǎng)勵(lì)、退化分類獎(jiǎng)勵(lì)和強(qiáng)度感知獎(jiǎng)勵(lì),聯(lián)合訓(xùn)練評(píng)分回歸與退化感知任務(wù)。這種多任務(wù)聯(lián)合訓(xùn)練的策略,顯著提高了各個(gè)任務(wù)的表現(xiàn),證明了任務(wù)之間存在的強(qiáng)互補(bǔ)關(guān)系。


實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果充分驗(yàn)證了 Q-Insight 在圖像質(zhì)量評(píng)分、退化檢測(cè)和零樣本推理任務(wù)中的卓越表現(xiàn):在圖像質(zhì)量評(píng)分任務(wù)上,Q-Insight 在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)均超過當(dāng)前最先進(jìn)的方法,特別是在域外數(shù)據(jù)上的泛化能力突出,并能夠提供完整詳細(xì)的推理過程。

  • 在圖像質(zhì)量評(píng)分任務(wù)上,Q-Insight 在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)均超過當(dāng)前最先進(jìn)的方法,特別是在域外數(shù)據(jù)上的泛化能力突出,并能夠提供完整詳細(xì)的推理過程。

  • 在退化感知任務(wù)上,Q-Insight 的表現(xiàn)顯著優(yōu)于現(xiàn)有的退化感知模型,尤其是在噪聲(Noise)和 JPEG 壓縮退化類型識(shí)別的準(zhǔn)確性上。

  • 在圖像比較推理任務(wù)上,Q-Insight 可只需少量數(shù)據(jù),即可超越當(dāng)前最先進(jìn)的圖像比較方法。

從Q-Insight到VQ-Insight:AIGC視頻畫質(zhì)理解大模型

圖像只捕捉視頻的一個(gè)切片,用戶真實(shí)的視頻觀看體驗(yàn)還取決于時(shí)間維度:運(yùn)動(dòng)是否自然?色彩是否在動(dòng)態(tài)中穩(wěn)定?因此,我們把 Q-Insight 的“推理式+強(qiáng)化學(xué)習(xí)”思路,拓展到自然視頻和 AIGC 視頻的評(píng)估和偏好比較中,提出了 VQ-Insight。

VQ-Insight 強(qiáng)大的 AIGC 視頻偏好比較能力,可直接應(yīng)用于視頻生成模型的直接偏好優(yōu)化(DPO)。如圖所示,基于 VQ-Insight 的方案相比于生成模型基線和對(duì)比方法,有效地緩解了錯(cuò)誤生成的問題,并有著更鮮艷的色彩和動(dòng)態(tài)。

相關(guān)鏈接

總結(jié)

Q-Insight 將“感知-打分—比較—推理”統(tǒng)一到一個(gè)可解釋的學(xué)習(xí)框架中,既給出可靠評(píng)分,也產(chǎn)出問題分析和可執(zhí)行的改進(jìn)線索;VQ-Insight 在此基礎(chǔ)上把理解從幀內(nèi)拓展到時(shí)域,支持真實(shí)/生成視頻的連貫性與人類偏好一致性評(píng)估。未來,我們將進(jìn)一步深度耦合強(qiáng)化學(xué)習(xí)與多模態(tài)推理——一方面,讓 Q-Insight 走向更廣任務(wù)(如圖像美學(xué)評(píng)估),作為強(qiáng)判別信號(hào)驅(qū)動(dòng)圖像增強(qiáng)/重建,作為“質(zhì)量評(píng)估中樞”聯(lián)動(dòng)各類重建工具;另一方面,讓 VQ-Insight 成為生成視頻訓(xùn)練的可插拔獎(jiǎng)勵(lì)與偏好模塊,把“看得準(zhǔn)”轉(zhuǎn)化為“變得更好”。

責(zé)任編輯:龐桂玉 來源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2025-04-08 09:50:00

2025-10-22 10:16:02

2023-03-03 15:43:23

抖音世界杯畫質(zhì)優(yōu)化

2025-09-12 16:51:20

2020-12-20 09:05:30

騰訊多媒體5G

2020-12-01 10:54:52

天衍實(shí)驗(yàn)室系統(tǒng)推薦

2023-04-28 15:53:55

框架模型

2021-10-25 21:34:37

AI

2022-06-30 09:53:38

火山引擎圖像壓縮

2025-10-23 12:32:05

2021-08-04 09:48:05

數(shù)字化

2009-05-07 16:20:20

谷歌實(shí)驗(yàn)室Gmail

2021-03-16 17:45:33

騰訊多媒體虛擬現(xiàn)實(shí)

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2011-05-25 17:51:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)