偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="bquny"><optgroup id="bquny"></optgroup></tfoot>^{<blockquote id="bquny"><rt id="bquny"></rt></blockquote>}

<p id="bquny"><li id="bquny"><sup id="bquny"></sup></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ICCV 2025｜UV-CoT：無監(jiān)督視覺推理新突破，偏好優(yōu)化重塑圖像級思維鏈

2025-07-29 08:45:00

人工智能新聞

隨著文本領(lǐng)域中思維鏈（Chain-of-Thought，CoT）推理機(jī)制的成功應(yīng)用，研究者開始將該方法引入視覺理解任務(wù)，以提升模型的推理能力和可解釋性。

本文第一作者是來自南洋理工大學(xué)的博士生趙克森，主要研究方向?yàn)?Reinforcement Learning in MLLMs. 該論文已被 ICCV 2025 錄用。

隨著文本領(lǐng)域中思維鏈（Chain-of-Thought，CoT）推理機(jī)制的成功應(yīng)用，研究者開始將該方法引入視覺理解任務(wù)，以提升模型的推理能力和可解釋性。

然而，現(xiàn)有模型局限于文本級別的思維鏈推理，且處理圖像的粒度固定，難以根據(jù)語義線索動態(tài)關(guān)注圖像中的關(guān)鍵區(qū)域。針對上述問題，本文提出 UV-CoT（Unsupervised Visual Chain-of-Thought），一種無監(jiān)督視覺思維鏈推理新框架。

該方法以「關(guān)鍵區(qū)域→推理過程」的人類視覺理解方式為參考（如下圖所示），設(shè)計(jì)了無監(jiān)督的數(shù)據(jù)生成與偏好優(yōu)化機(jī)制，動態(tài)聚焦關(guān)鍵區(qū)域，實(shí)現(xiàn)細(xì)粒度推理，顯著提升了模型的空間感知與圖文推理能力。

論文標(biāo)題：Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
論文鏈接：https://arxiv.org/abs/2504.18397
項(xiàng)目地址：https://kesenzhao.github.io/my_project/projects/UV-CoT.html
代碼倉庫：https://github.com/kesenzhao/UV-CoT
開源模型: https://huggingface.co/papers/2504.18397

背景：有監(jiān)督訓(xùn)練

需要高昂的人工成本

現(xiàn)有方法采用有監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）策略訓(xùn)練模型，使用大量有標(biāo)簽的思維鏈推理數(shù)據(jù)，由人工標(biāo)注關(guān)鍵區(qū)域及其推理過程。這類方法面臨以下挑戰(zhàn)：

（1）人工標(biāo)注成本高，擴(kuò)展性差：標(biāo)注關(guān)鍵圖像區(qū)域和推理路徑需要耗費(fèi)大量人力和時(shí)間，尤其在復(fù)雜視覺語義理解任務(wù)中，難以適應(yīng)多任務(wù)或大規(guī)模場景。

（2）訓(xùn)練信號單一，泛化能力有限： SFT 僅利用人工標(biāo)注的「正樣本」（正確區(qū)域及回答），忽略其他潛在合理或不合理的區(qū)域與推理路徑，導(dǎo)致模型在未知場景下的泛化能力不足。

UV-CoT 設(shè)計(jì)了一套自動化的偏好數(shù)據(jù)生成與評估流程，結(jié)合改進(jìn)的偏好優(yōu)化算法 Score-DPO（sDPO），在不依賴人工標(biāo)注的前提下，通過偏好評分排序引導(dǎo)模型實(shí)現(xiàn)無監(jiān)督圖像級思維鏈學(xué)習(xí)（如下圖所示）。

貢獻(xiàn)一：無監(jiān)督偏好數(shù)據(jù)生成與評估

V-CoT 利用目標(biāo)模型和評估模型，為圖像 - 問題對生成多樣化的中間推理響應(yīng)，并通過偏好評分構(gòu)建偏好數(shù)據(jù)集。主要步驟如算法 1 所述：

響應(yīng)生成：在每個(gè)推理時(shí)間步 t，使用目標(biāo)模型通過隨機(jī)種子生成 n 個(gè)多樣化的響應(yīng)（包括邊界框和中間推理結(jié)果）。
響應(yīng)評估：評估模型綜合考慮所選區(qū)域的得分及對后續(xù)回答的影響。

偏好對構(gòu)建：從響應(yīng)中隨機(jī)選擇 k 個(gè)偏好對（偏好和非偏好思維鏈），形成偏好數(shù)據(jù)集。
響應(yīng)選擇：保留最高評分的響應(yīng)鏈，用于下一時(shí)間步的推理。通過動態(tài)生成偏好數(shù)據(jù)，UV-CoT 減少了對高質(zhì)量標(biāo)注數(shù)據(jù)的依賴，能夠在無監(jiān)督數(shù)據(jù)條件下實(shí)現(xiàn)圖像級思維鏈推理。

貢獻(xiàn)二： sDPO 與迭代學(xué)習(xí)

UV-CoT 使用改進(jìn)的直接偏好優(yōu)化（DPO）算法 sDPO，通過引入偏好分?jǐn)?shù)差異優(yōu)化圖像級思維鏈推理，并采用迭代學(xué)習(xí)策略動態(tài)適應(yīng)模型輸出分布。

sDPO 損失函數(shù)如下：

相比標(biāo)準(zhǔn) DPO，sDPO 通過引入偏好分?jǐn)?shù)的差異，量化偏好和非偏好響應(yīng)之間的強(qiáng)度，提升對關(guān)鍵圖像區(qū)域的影響建模。

迭代學(xué)習(xí) (如算法 2)：將數(shù)據(jù)集分為 m 個(gè)子集，迭代 m 次，每次使用當(dāng)前模型生成偏好數(shù)據(jù) D_i，并用 sDPO 優(yōu)化得到下一模型。通過動態(tài)更新偏好數(shù)據(jù)，緩解訓(xùn)練數(shù)據(jù)與模型生成分布的差異，增強(qiáng)訓(xùn)練魯棒性。

實(shí)驗(yàn)亮點(diǎn)

顯著性能提升（表 1）：在六大基準(zhǔn)上，優(yōu)于有監(jiān)督的思維鏈模型 Visual-CoT-7B，遠(yuǎn)超目標(biāo)模型 LLaVA-1.5-7B 和其他無思維鏈模型。

泛化能力強(qiáng)，易于拓展（表 2）：在零樣本設(shè)置下，UV-CoT 平均提升 2.5%，添加額外無標(biāo)注數(shù)據(jù)后，平均提升達(dá) 5.1%。

勝任高分辨率場景（表 3）：在 V* Bench 上，UV-CoT 平均得分 0.402，平均提升 5.5%，尤其在 OCR 任務(wù)中提升 8.4%。

不依賴評估模型，邊界框生成質(zhì)量高（表 5）：UV-CoT 通過自評估（目標(biāo)模型作為評估器）表現(xiàn)仍遠(yuǎn)超目標(biāo)模型 LLaVA-1.5-7B（+4.8%），接近 12B 模型 OmniLMM-12B（-0.2%）。將 UV-CoT 生成的邊界框應(yīng)用于 OmniLMM-12B 和 LLaVA-1.5-7B 輔助推理，性能分別提升 7.3% 和 4.7%。

偏好數(shù)據(jù)與思維鏈推理可視化：

結(jié)語

UV-CoT 提出了一種創(chuàng)新的無監(jiān)督視覺思維鏈推理框架，通過自動化的數(shù)據(jù)生成與對比評估機(jī)制，成功擺脫了對人工標(biāo)注的依賴，實(shí)現(xiàn)了關(guān)鍵圖像區(qū)域的自動識別與推理優(yōu)化。該方法為高效、可擴(kuò)展的多模態(tài)推理提供了新思路，為未來無監(jiān)督視覺理解研究奠定了堅(jiān)實(shí)基礎(chǔ)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型應(yīng)用

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="iuwln"></cite>

<noframes id="iuwln"></noframes>