偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="0ccha"></rt>

<pre id="0ccha"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

火山引擎多媒體實(shí)驗(yàn)室畫質(zhì)理解大模型 Q-Insight 入選 NeurIPS 2025 Spotlight

作者：多媒體實(shí)驗(yàn)室 2025-10-23 09:18:46

北京大學(xué)與火山引擎多媒體實(shí)驗(yàn)室的研究人員聯(lián)合提出了基于強(qiáng)化學(xué)習(xí)訓(xùn)練的多模態(tài)大模型圖像畫質(zhì)理解方案 Q-Insight。與以往方法不同的是，Q-Insight 不再簡(jiǎn)單地讓模型擬合人眼打分，而是將評(píng)分視作一種引導(dǎo)信號(hào)，創(chuàng)造性地運(yùn)用了“群組相對(duì)策略優(yōu)化”（GRPO）算法，不再依賴大量的文本監(jiān)督標(biāo)注，而是挖掘大模型自身的推理潛力，促使模型深度思考圖像質(zhì)量的本質(zhì)原因。

會(huì)議背景

近日，NeurIPS 2025公布了錄用結(jié)果，該會(huì)議是機(jī)器學(xué)習(xí)與人工智能領(lǐng)域最具影響力的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一。據(jù)悉本次會(huì)議共有21575篇投稿進(jìn)入審稿階段，最終5290篇論文被錄用，錄用論文中共有688篇論文（入選比例3%）被選為亮點(diǎn)文章（Spotlight）。

火山引擎多媒體實(shí)驗(yàn)室和北京大學(xué)合作的論文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被選為本次會(huì)議亮點(diǎn)文章。

Q-Insight：首個(gè)推理式畫質(zhì)理解大模型

論文背景

在音視頻鏈路中，采集、壓縮、處理、傳輸、播放等環(huán)節(jié)大多都基于一個(gè)核心問題展開，即人眼的畫質(zhì)感知。多模態(tài)大模型的快速發(fā)展為新時(shí)代的音視頻技術(shù)帶來了新的機(jī)遇，面對(duì)人眼感知的畫質(zhì)理解提供了一種全新的解決方案。

以往的畫質(zhì)理解的方法主要分為兩類：（1）評(píng)分型方法，這類方法通常只能提供單一的數(shù)值評(píng)分，缺乏明確的解釋性，難以深入理解圖像質(zhì)量背后的原因；（2）描述型方法，這類方法嚴(yán)重依賴于大規(guī)模文本描述數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)，對(duì)標(biāo)注數(shù)據(jù)的需求巨大，泛化能力和靈活性不足。

多任務(wù)群組相對(duì)策略優(yōu)化

針對(duì)上述問題，北京大學(xué)與火山引擎多媒體實(shí)驗(yàn)室的研究人員聯(lián)合提出了基于強(qiáng)化學(xué)習(xí)訓(xùn)練的多模態(tài)大模型圖像畫質(zhì)理解方案 Q-Insight。與以往方法不同的是，Q-Insight 不再簡(jiǎn)單地讓模型擬合人眼打分，而是將評(píng)分視作一種引導(dǎo)信號(hào)，創(chuàng)造性地運(yùn)用了“群組相對(duì)策略優(yōu)化”（GRPO）算法，不再依賴大量的文本監(jiān)督標(biāo)注，而是挖掘大模型自身的推理潛力，促使模型深度思考圖像質(zhì)量的本質(zhì)原因。Q-Insight 在質(zhì)量評(píng)分、退化感知、多圖比較、原因解釋等多個(gè)任務(wù)上均達(dá)到業(yè)界領(lǐng)先水平，具備出色的準(zhǔn)確性和泛化推理能力，并且不依賴大量高成本的文本數(shù)據(jù)標(biāo)注。如圖所示，Q-Insight 不僅輸出單純的得分、退化類型或者比較結(jié)果，而是提供了從多個(gè)角度綜合評(píng)估畫質(zhì)的詳細(xì)推理過程。

在實(shí)際訓(xùn)練過程中，我們發(fā)現(xiàn)單獨(dú)以評(píng)分作為引導(dǎo)無法充分實(shí)現(xiàn)良好的畫質(zhì)理解，原因是模型對(duì)圖像退化現(xiàn)象不夠敏感。為了解決這一問題，我們創(chuàng)新性地引入了多任務(wù) GRPO 優(yōu)化，設(shè)計(jì)了可驗(yàn)證的評(píng)分獎(jiǎng)勵(lì)、退化分類獎(jiǎng)勵(lì)和強(qiáng)度感知獎(jiǎng)勵(lì)，聯(lián)合訓(xùn)練評(píng)分回歸與退化感知任務(wù)。這種多任務(wù)聯(lián)合訓(xùn)練的策略，顯著提高了各個(gè)任務(wù)的表現(xiàn)，證明了任務(wù)之間存在的強(qiáng)互補(bǔ)關(guān)系。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果充分驗(yàn)證了 Q-Insight 在圖像質(zhì)量評(píng)分、退化檢測(cè)和零樣本推理任務(wù)中的卓越表現(xiàn)：在圖像質(zhì)量評(píng)分任務(wù)上，Q-Insight 在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)均超過當(dāng)前最先進(jìn)的方法，特別是在域外數(shù)據(jù)上的泛化能力突出，并能夠提供完整詳細(xì)的推理過程。

在圖像質(zhì)量評(píng)分任務(wù)上，Q-Insight 在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)均超過當(dāng)前最先進(jìn)的方法，特別是在域外數(shù)據(jù)上的泛化能力突出，并能夠提供完整詳細(xì)的推理過程。

在退化感知任務(wù)上，Q-Insight 的表現(xiàn)顯著優(yōu)于現(xiàn)有的退化感知模型，尤其是在噪聲（Noise）和 JPEG 壓縮退化類型識(shí)別的準(zhǔn)確性上。

在圖像比較推理任務(wù)上，Q-Insight 可只需少量數(shù)據(jù)，即可超越當(dāng)前最先進(jìn)的圖像比較方法。

從Q-Insight到VQ-Insight：AIGC視頻畫質(zhì)理解大模型

圖像只捕捉視頻的一個(gè)切片，用戶真實(shí)的視頻觀看體驗(yàn)還取決于時(shí)間維度：運(yùn)動(dòng)是否自然？色彩是否在動(dòng)態(tài)中穩(wěn)定？因此，我們把 Q-Insight 的“推理式+強(qiáng)化學(xué)習(xí)”思路，拓展到自然視頻和 AIGC 視頻的評(píng)估和偏好比較中，提出了 VQ-Insight。

VQ-Insight 強(qiáng)大的 AIGC 視頻偏好比較能力，可直接應(yīng)用于視頻生成模型的直接偏好優(yōu)化（DPO）。如圖所示，基于 VQ-Insight 的方案相比于生成模型基線和對(duì)比方法，有效地緩解了錯(cuò)誤生成的問題，并有著更鮮艷的色彩和動(dòng)態(tài)。

相關(guān)鏈接

??Q-Insight：
https://arxiv.org/pdf/2503.22679
??VQ-Insight：
https://arxiv.org/pdf/2506.18564
??訓(xùn)練與推理代碼：
https://github.com/bytedance/Q-Insight
??開源模型：
https://huggingface.co/ByteDance/Q-Insight

總結(jié)

Q-Insight 將“感知-打分—比較—推理”統(tǒng)一到一個(gè)可解釋的學(xué)習(xí)框架中，既給出可靠評(píng)分，也產(chǎn)出問題分析和可執(zhí)行的改進(jìn)線索；VQ-Insight 在此基礎(chǔ)上把理解從幀內(nèi)拓展到時(shí)域，支持真實(shí)/生成視頻的連貫性與人類偏好一致性評(píng)估。未來，我們將進(jìn)一步深度耦合強(qiáng)化學(xué)習(xí)與多模態(tài)推理——一方面，讓 Q-Insight 走向更廣任務(wù)（如圖像美學(xué)評(píng)估），作為強(qiáng)判別信號(hào)驅(qū)動(dòng)圖像增強(qiáng)/重建，作為“質(zhì)量評(píng)估中樞”聯(lián)動(dòng)各類重建工具；另一方面，讓 VQ-Insight 成為生成視頻訓(xùn)練的可插拔獎(jiǎng)勵(lì)與偏好模塊，把“看得準(zhǔn)”轉(zhuǎn)化為“變得更好”。

責(zé)任編輯：龐桂玉來源：字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)

大模型 Q-Insight 火山引擎

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<acronym id="pz76l"><cite id="pz76l"></cite></acronym>

<pre id="pz76l"></pre>