偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="q0v3w"><tt id="q0v3w"></tt></abbr>

<wbr id="q0v3w"><fieldset id="q0v3w"></fieldset></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-9-19 09:36

瀏覽

0收藏

VLMs 性能的持續(xù)提升，視覺 token 的消耗呈指數(shù)級增長。例如，一張 2048× 1024 的圖片在 LLaVA 1.5中需要 576 個視覺 token，而在 Qwen2.5-VL中則需2678 個視覺 token。因此，避免過度使用視覺 token 顯得尤為重要。

大多數(shù)方法使用預(yù)定的Threshold 來修剪或合并固定數(shù)量的視覺 Token。然而，不同問題和圖像中的冗余程度各不相同。因此，是否真的應(yīng)該在所有場景中應(yīng)用統(tǒng)一的 Token 壓縮比例？下圖探討了簡單地降低了圖像分辨率以減少視覺 token 的數(shù)量，并評估了 Qwen2.5-VL 的在幾個基準(zhǔn)上的性能。

通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計-AI.x社區(qū)

結(jié)論：

左圖：在大多數(shù)一般場景中，即使將視覺 token 減少四倍，性能下降也微乎其微。然而，在OCR 相關(guān)基準(zhǔn)上，token 壓縮會導(dǎo)致顯著的性能下降。
右圖：VisionThink 在性能和效率上均顯著優(yōu)于之前的工作。

因此，如何讓模型自主選擇何時進(jìn)行圖像token壓縮？VisionThink是一種新的視覺 token 壓縮范式。從下采樣圖像開始，智能判斷其是否足以解決問題。否則，模型可以輸出一個特殊 token 以請求更高分辨率的圖像。與現(xiàn)有采用固定剪枝比例或閾值壓縮 token 的高效 VLM 方法相比，VisionThink 自主決定是否按情況壓縮 token。

本文看看VisionThink相關(guān)思路，僅供參考。

方法

目標(biāo)：使VLMs能夠自主判斷給定圖像中的信息是否足以準(zhǔn)確回答問題。如下圖，pipline首先處理低分辨率圖像以最小化計算成本。當(dāng)降采樣圖像中的信息不足以回答問題時，它會智能地請求原始高分辨率輸入。

通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計-AI.x社區(qū)

VisionThink 的框架： (a) 左圖 VisionThink 處理分辨率降低4倍的圖像，其中 VLM 直接提供答案。(b) 右圖展示了模型檢測到信息不足并請求高分辨率圖像以回答問題的情況。

從上述可知，強化學(xué)習(xí)的設(shè)計目標(biāo)變?yōu)椋?strong>使模型能夠判斷何時需要高分辨率。模型必須學(xué)會評估下采樣圖像是否包含足夠的信息來回答問題，或者是否需要原始高分辨率圖像。

RL設(shè)計

LLM作為評判評估器

傳統(tǒng)問題無法解決：rule-base的方法可以通過規(guī)則或精確匹配輕松定義和驗證真實答案。然而，這種方法在通用 VQA 情景中失效，因為有效答案的多樣性和分歧使得基于規(guī)則的驗證變得不可行。

因此，通過一個LLM作為評判評估器，僅評估模型響應(yīng)的純文本準(zhǔn)確率。通過比較模型的答案與真實答案來實現(xiàn)。

獎勵提示詞如下：可以看到，獎勵值是離散值0或1.

通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計-AI.x社區(qū)

多輪GRPO算法

前面提到，pipline會首先將問題和下采樣圖像輸入到 VLM 中。如果信息不足以回答當(dāng)前問題，模型將自主請求更高分辨率的圖像并生成新的響應(yīng)。這一過程本質(zhì)上是一種多輪交互。因此，將原始的 GRPO擴展為多輪 GRPO：

通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計-AI.x社區(qū)

那么新問題來了，如何觸發(fā)高分辨率圖像進(jìn)行輸入？樸素的方法：改提示詞，指示模型輸出特定的特殊 token。 提示必須確保模型能夠在 zero-shot 情景下的多輪展開中輸出所需的特殊 token。

通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計-AI.x社區(qū)

獎勵函數(shù)設(shè)計

總體獎勵函數(shù)如下，由三部分組成：

通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計-AI.x社區(qū)

準(zhǔn)確率獎勵：LLM-as-Judge 方法，其中 0 表示錯誤答案，1 表示正確答案。
格式獎勵：推理過程需包含在“< think>< /think>” 標(biāo)簽內(nèi)，最終答案置于 “< answer>< /answer>” 標(biāo)簽中，且函數(shù)調(diào)用需符合規(guī)定的 JSON 格式。若其中任一格式有誤，則格式化得分為 0。只有當(dāng)所有格式均正確時，模型才能獲得滿分的格式化得分 0.5。
懲罰控制：由于使用高分辨率圖像通常能提升性能，若沒有任何懲罰，模型傾向于始終請求高分辨率圖像。為防止這種情況，最初遵循 Search-R1對依賴高分辨率圖像的正確回答施加了 0.1 的懲罰。然而，這種方法導(dǎo)致模型偏好直接回答，引發(fā)模型僅依賴直接回答的崩潰現(xiàn)象，如下圖中的紫色線所示。原因在于，即使是模糊的低分辨率圖像有時也能讓模型猜出正確答案，而 0.1 的懲罰無意中強化了這種直接回答的偏好。引入一個閾值來控制這種現(xiàn)象。當(dāng)使用低分辨率圖像正確回答的概率較低時，對直接答案施加 0.1 的懲罰，以鼓勵高分辨率請求；反之，當(dāng)概率較高時，對高分辨率請求施加 0.1 的懲罰。

實驗性能

推理模型推理時間成本與基準(zhǔn)性能對比。Qwen-RL 和 Qwen-RL (1/4) 分別表示在Qwen2.5-VL-Instruct 模型上利用 LLM-as-Judge 進(jìn)行全分辨率圖像和 1/4 分辨率圖像的推理。
與傳統(tǒng)高效 VLM 方法的比較
VisionThink 智能地確定高分辨率圖像的比率。應(yīng)用調(diào)整大小表示模型自主請求查看原始高分辨率圖像，而直接回答則表示模型僅使用 1/4 大小的圖像即可回答問題。

參考文獻(xiàn)：VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning，https://arxiv.org/pdf/2507.13348repo:https://github.com/dvlab-research/VisionThink

本文轉(zhuǎn)載自???大模型自然語言處理?? 作者：余俊輝

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

強化學(xué)習(xí)

多模態(tài)大模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

LLooM：大語言模型時代文本聚類新思路

大語言模型論文跟蹤 ? 6048瀏覽 ? 0回復(fù)
IPAdapter+再進(jìn)化，可同時學(xué)習(xí)多個任務(wù)！Unity開源新思路：圖像條件結(jié)合指令提示

angel ? 3184瀏覽 ? 0回復(fù)
IPAdapter+再進(jìn)化，可同時學(xué)習(xí)多個任務(wù)！Unity開源新思路：圖像條件結(jié)合指令提示

angel ? 3705瀏覽 ? 0回復(fù)
基于多模態(tài)深度強化學(xué)習(xí)的投資組合優(yōu)化

靈度智能 ? 5019瀏覽 ? 0回復(fù)
DeepSeek-R1：通過強化學(xué)習(xí)激發(fā)大語言模型的推理潛能

柏企閱文 ? 6224瀏覽 ? 0回復(fù)
ReFT：通過強化微調(diào)增強LLMs

Halo咯咯 ? 4251瀏覽 ? 0回復(fù)
強化學(xué)習(xí)與軟件工程：開源軟件獎勵演化的強化學(xué)習(xí)

AI研究前瞻 ? 3339瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實現(xiàn)方法思路

大模型自然語言處理 ? 3583瀏覽 ? 0回復(fù)
Fin-R1：通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型

AIRoobt ? 4234瀏覽 ? 0回復(fù)
MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學(xué)習(xí)實現(xiàn)深度研究

sbf_2000 ? 3557瀏覽 ? 0回復(fù)
IKEA：通過強化學(xué)習(xí)提高LLM檢索規(guī)劃效率（開源）

大語言模型論文跟蹤 ? 1778瀏覽 ? 0回復(fù)
GRPO強化多模態(tài)大模型目標(biāo)檢測能力獎勵函數(shù)代碼設(shè)計

大模型自然語言處理 ? 2085瀏覽 ? 0回復(fù)
GRPO強化學(xué)習(xí)緩解多模態(tài)大模型OCR任務(wù)的幻覺思路及數(shù)據(jù)生成思路

大模型自然語言處理 ? 2897瀏覽 ? 0回復(fù)
多模態(tài)大模型統(tǒng)一布局生成方法微調(diào)數(shù)據(jù)集設(shè)計及模型架構(gòu)統(tǒng)一訓(xùn)練思路

大模型自然語言處理 ? 1745瀏覽 ? 0回復(fù)
智能體強化學(xué)習(xí)綜述；強化學(xué)習(xí)原生GUI智能體；多輪工具交互強化學(xué)習(xí)；模塊化多輪工具強化學(xué)習(xí)

AI研究前瞻 ? 3521瀏覽 ? 0回復(fù)
多模態(tài)文檔理解視覺token剪枝思路

大模型自然語言處理 ? 857瀏覽 ? 0回復(fù)
早期經(jīng)驗監(jiān)督的智能體強化學(xué)習(xí)；推理元信息感知的強化學(xué)習(xí)獎勵；安全與有效聯(lián)合訓(xùn)練智能體框架

AI研究前瞻 ? 1971瀏覽 ? 0回復(fù)
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計思路

大模型自然語言處理 ? 567瀏覽 ? 0回復(fù)
Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路

Halo咯咯 ? 333瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路 4天前發(fā)布
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計思路 6天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案

下一篇： ppt檢索的RAG方案（多模態(tài)、OCR、混合檢索）評估結(jié)論

社區(qū)精華內(nèi)容

目錄

<tfoot id="6xlum"></tfoot>