通過強化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實現(xiàn)思路及獎勵函數(shù)設(shè)計 原創(chuàng)
VLMs 性能的持續(xù)提升,視覺 token 的消耗呈指數(shù)級增長。例如,一張 2048× 1024 的圖片在 LLaVA 1.5中需要 576 個視覺 token,而在 Qwen2.5-VL中則需2678 個視覺 token。因此,避免過度使用視覺 token 顯得尤為重要。
大多數(shù)方法使用預(yù)定的Threshold 來修剪或合并固定數(shù)量的視覺 Token。然而,不同問題和圖像中的冗余程度各不相同。因此,是否真的應(yīng)該在所有場景中應(yīng)用統(tǒng)一的 Token 壓縮比例?下圖探討了簡單地降低了圖像分辨率以減少視覺 token 的數(shù)量,并評估了 Qwen2.5-VL 的在幾個基準(zhǔn)上的性能。

結(jié)論:
- 左圖:在大多數(shù)一般場景中,即使將視覺 token 減少四倍,性能下降也微乎其微。然而,在OCR 相關(guān)基準(zhǔn)上,token 壓縮會導(dǎo)致顯著的性能下降。
- 右圖:VisionThink 在性能和效率上均顯著優(yōu)于之前的工作。
因此,如何讓模型自主選擇何時進(jìn)行圖像token壓縮?VisionThink是一種新的視 覺 token 壓縮范式。從下采樣圖像開始,智能判斷其是否足以解決問題。否則,模型可以輸出一個特殊 token 以請求更高分辨率的圖像。與現(xiàn)有采用固定剪枝比例或閾值壓縮 token 的高效 VLM 方法相比,VisionThink 自主決定是否按情況壓縮 token。
本文看看VisionThink相關(guān)思路,僅供參考。
方法
目標(biāo):使VLMs能夠自主判斷給定圖像中的信息是否足以準(zhǔn)確回答問題。如下圖,pipline首先處理低分辨率圖像以最小化計算成本。當(dāng)降采樣圖像中的信息不足以回答問題時,它會智能地請求原始高分辨率輸入。

VisionThink 的框架: (a) 左圖 VisionThink 處理分辨率降低4倍的圖像,其中 VLM 直接提供答案。(b) 右圖展示了模型檢測到信息不足并請求高分辨率圖像以回答問題的情況。
從上述可知,強化學(xué)習(xí)的設(shè)計目標(biāo)變?yōu)椋?strong>使模型能夠判斷何時需要高分辨率。模型必須學(xué)會評估下采樣圖像是否包含足夠的信息來回答問題,或者是否需要原始高分辨率圖像。
RL設(shè)計
LLM作為評判評估器
傳統(tǒng)問題無法解決:rule-base的方法可以通過規(guī)則或精確匹配輕松定義和驗證真實答案。然而,這種方法在通用 VQA 情景中失效,因為有效答案的多樣性和分歧使得基于規(guī)則的驗證變得不可行。
因此,通過一個LLM作為評判評估器,僅評估模型響應(yīng)的純文本準(zhǔn)確率。通過比較模型的答案與真實答案來實現(xiàn)。
獎勵提示詞如下:可以看到,獎勵值是離散值0或1.

多輪GRPO算法
前面提到,pipline會首先將問題和下采樣圖像輸入到 VLM 中。如果信息不足以回答當(dāng)前問題,模型將自主請求更高分辨率的圖像并生成新的響應(yīng)。這一過程本質(zhì)上是一種多輪交互。因此,將原始的 GRPO擴展為多輪 GRPO:

那么新問題來了,如何觸發(fā)高分辨率圖像進(jìn)行輸入?樸素的方法:改提示詞,指示模型輸出特定的特殊 token。 提示必須確保模型能夠在 zero-shot 情景下的多輪展開中輸出所需的特殊 token。

獎勵函數(shù)設(shè)計
總體獎勵函數(shù)如下,由三部分組成:

- 準(zhǔn)確率獎勵:LLM-as-Judge 方法,其中 0 表示錯誤答案,1 表示正確答案。
- 格式獎勵:推理過程需包含在“< think>< /think>” 標(biāo)簽內(nèi),最終答案置于 “< answer>< /answer>” 標(biāo)簽中,且函數(shù)調(diào)用需符合規(guī)定的 JSON 格式。若其中任一格式有誤,則格式化得分為 0。只有當(dāng)所有格式均正確時,模型才能獲得滿分的格式化得分 0.5。
- 懲罰控制:由于使用高分辨率圖像通常能提升性能,若沒有任何懲罰,模型傾向于始終請求高分辨率圖像。為防止這種情況,最初遵循 Search-R1對依賴高分辨率圖像的正確回答施加了 0.1 的懲罰。然而,這種方法導(dǎo)致模型偏好直接回答,引發(fā)模型僅依賴直接回答的崩潰現(xiàn)象,如下圖中的紫色線所示。原因在于,即使是模糊的低分辨率圖像有時也能讓模型猜出正確答案,而 0.1 的懲罰無意中強化了這種直接回答的偏好。引入一個閾值來控制這種現(xiàn)象。當(dāng)使用低分辨率圖像正確回答的概率較低時,對直接答案施加 0.1 的懲罰,以鼓勵高分辨率請求;反之,當(dāng)概率較高時,對高分辨率請求施加 0.1 的懲罰。

實驗性能
- 推理模型推理時間成本與基準(zhǔn)性能對比。Qwen-RL 和 Qwen-RL (1/4) 分別表示在Qwen2.5-VL-Instruct 模型上利用 LLM-as-Judge 進(jìn)行全分辨率圖像和 1/4 分辨率圖像的推理。

- 與傳統(tǒng)高效 VLM 方法的比較

- VisionThink 智能地確定高分辨率圖像的比率。應(yīng)用調(diào)整大小表示模型自主請求查看原始高分辨率圖像,而直接回答則表示模型僅使用 1/4 大小的圖像即可回答問題。

參考文獻(xiàn):VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning,https://arxiv.org/pdf/2507.13348repo:https://github.com/dvlab-research/VisionThink
本文轉(zhuǎn)載自???大模型自然語言處理?? 作者:余俊輝

















