RewardMap: 通過多階段強(qiáng)化學(xué)習(xí)解決細(xì)粒度視覺推理的Sparse Reward
本研究由西湖大學(xué) ENCODE Lab 牽頭,聯(lián)合同濟(jì)大學(xué)、浙江大學(xué)和新加坡國(guó)立大學(xué)共同完成。團(tuán)隊(duì)在大模型強(qiáng)化學(xué)習(xí)與多模態(tài)推理方向具有深厚研究基礎(chǔ)。
近年來,大語(yǔ)言模型(LLMs)以及多模態(tài)大模型(MLLMs)在多種場(chǎng)景理解和復(fù)雜推理任務(wù)中取得突破性進(jìn)展。
但一個(gè)樸素而尖銳的問題始終橫在面前:當(dāng)視覺信息變得極其繁復(fù)、結(jié)構(gòu)密集,模型究竟能不能「看懂圖」?比如以高分辨率地鐵圖為代表的真實(shí)場(chǎng)景,既要求精細(xì)的視覺感知,又要求跨線路、跨站點(diǎn)的空間推理。
來自該團(tuán)隊(duì)的前向工作 ReasonMap 首次系統(tǒng)揭示了這一問題:在高分辨率地鐵圖等真實(shí)場(chǎng)景下,即使最先進(jìn)的 MLLMs 也頻繁在跨線路、跨站點(diǎn)的路徑規(guī)劃中出現(xiàn)「看錯(cuò)線」「漏站」「重復(fù)路線」等推理幻覺。
團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn),在高分辨率、信息極其密集的地鐵圖上,僅依靠最終答案給出成敗信號(hào)的強(qiáng)化學(xué)習(xí),很容易陷入獎(jiǎng)勵(lì)極度稀疏的困境:多數(shù)輸出幾乎得不到任何正反饋,少數(shù)「偶然對(duì)」的樣本又會(huì)造成高方差梯度,訓(xùn)練既慢又不穩(wěn),這使得模型在長(zhǎng)鏈路路徑規(guī)劃中頻繁出現(xiàn)看錯(cuò)線、漏站、甚至重復(fù)路線的「幻覺」。
為此,該團(tuán)隊(duì)進(jìn)一步提出 RewardMap:一個(gè)圍繞真實(shí) map reasoning 任務(wù)場(chǎng)景設(shè)計(jì)的多階段強(qiáng)化學(xué)習(xí)框架,用難度感知的細(xì)粒度獎(jiǎng)勵(lì)與從易到難的課程式訓(xùn)練,系統(tǒng)提升 MLLMs 的細(xì)粒度視覺理解與空間推理能力。

- 論文標(biāo)題:RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2510.02240
- 項(xiàng)目主頁(yè):https://fscdc.github.io/RewardMap/
- 代碼:https://github.com/fscdc/RewardMap
- 數(shù)據(jù)集:https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656

ReasonMap-Plus:
為「冷啟動(dòng)」準(zhǔn)備的密集監(jiān)督
團(tuán)隊(duì)首先在 ReasonMap 的基礎(chǔ)上構(gòu)建 ReasonMap-Plus,它與 ReasonMap 一致采用高分辨率的地鐵/軌交地圖,覆蓋 30 座城市,共計(jì) 4018 個(gè)問題樣本,并在設(shè)計(jì)上明確區(qū)分了五類更偏感知的細(xì)粒度題型(兩類 Local Counting、Global Counting、兩類 True/False),以便為強(qiáng)化學(xué)習(xí)階段提供更細(xì)密的監(jiān)督與可拆解的目標(biāo)。數(shù)據(jù)集還給出了易/中/難的難度標(biāo)簽,并在訓(xùn)練/測(cè)試劃分上保持城市與難度分布的多樣性與均衡性。

我們提出了什么:
RewardMap 框架
RewardMap 的核心思想并不復(fù)雜,卻緊扣痛點(diǎn)。第一步,用「細(xì)節(jié)可分解」的獎(jiǎng)勵(lì)把一項(xiàng)路線規(guī)劃題拆成若干可評(píng)估的子目標(biāo),讓模型不再只有「對(duì)/錯(cuò)」兩級(jí)的冰冷信號(hào);第二步,以「從易到難」的課程式訓(xùn)練組織數(shù)據(jù)分布,先讓模型在更密集、噪聲更小的子任務(wù)上「熱身」,再穩(wěn)步遷移到真實(shí)的路線規(guī)劃上。
具體而言,RewardMap 包含兩大組件:其一是「難度感知的細(xì)節(jié)獎(jiǎng)勵(lì)」;其二是「多階段強(qiáng)化學(xué)習(xí)」,后者顯式利用 ReasonMap-Plus 中更易獲得稠密信號(hào)的問題類型進(jìn)行冷啟動(dòng),從一開始就提升訓(xùn)練信噪比并降低不穩(wěn)定性。
在難度感知上,團(tuán)隊(duì)對(duì)訓(xùn)練樣本的獎(jiǎng)勵(lì)總和施加難度感知權(quán)重,綜合考慮地圖難度以及問題難度兩個(gè)維度:前者針對(duì) ReasonMap 與 ReasonMap-Plus 的全部地圖統(tǒng)一劃分為三檔;后者在 ReasonMap 的規(guī)劃題中可由換乘次數(shù)來度量,換乘越多、難度越高,權(quán)重也越大。
RewardMap 的獎(jiǎng)勵(lì)函數(shù)同樣體現(xiàn)了「把復(fù)雜問題拆成可學(xué)信號(hào)」的思路。總獎(jiǎng)勵(lì)由三部分組成:格式合規(guī)(format)、最終正確性(correctness)與細(xì)節(jié)項(xiàng)(detail),并由難度權(quán)重進(jìn)行縮放以體現(xiàn)題目的真實(shí)復(fù)雜度;其中細(xì)節(jié)項(xiàng)以 α=0.5 的系數(shù)參與總分,確保它既能提供穩(wěn)定梯度,又不會(huì)喧賓奪主。
在細(xì)節(jié)項(xiàng)的具體計(jì)算里,我們對(duì)「起點(diǎn)/終點(diǎn)是否正確、線路名稱是否匹配、換乘站點(diǎn)是否合理、路線分段數(shù)是否正確」等要素分別給出加/扣分,形成一個(gè)「部分正確即可得分」的連續(xù)型信號(hào),而不是過去那種「一票否決」的全或無(wú)。
關(guān)鍵結(jié)果
那么,RewardMap 在多基準(zhǔn)上的綜合表現(xiàn)如何?除了在 ReasonMap/ReasonMap-Plus 上帶來持續(xù)且可復(fù)現(xiàn)實(shí)驗(yàn)增益之外,我們還將其推廣到覆蓋「空間推理、細(xì)粒度視覺、通用視覺問答」三大類別的六項(xiàng)外部評(píng)測(cè)。
結(jié)果顯示,RewardMap 在所有基準(zhǔn)上均取得一致提升,其中在 SpatialEval 上的增幅最高,達(dá)到 +13.51%;相較之下,傳統(tǒng)的 SFT → RL 雖然也有穩(wěn)定提升,但整體仍弱于 RewardMap。這些結(jié)果表明,「細(xì)粒度獎(jiǎng)勵(lì) + 多階段課程」這一策略不僅在地鐵圖路徑規(guī)劃上奏效,也能遷移到更寬泛的高分辨率與空間理解任務(wù)上。


質(zhì)化對(duì)比同樣直觀地揭示了改進(jìn)點(diǎn)。以多城多圖的真實(shí)樣例為參照,配合 RewardMap 訓(xùn)練后的模型更少出現(xiàn)「把線路看錯(cuò)」的視覺混淆,更少出現(xiàn)「把同一路線在答案中重復(fù)多次」的幻覺現(xiàn)象,能夠更穩(wěn)健地給出正確的首末站與換乘點(diǎn),并在路線分段上匹配真實(shí)地圖結(jié)構(gòu)。

未來展望
站在更宏觀的角度,RewardMap 帶來的價(jià)值不止于「刷榜」。它為高分辨率、強(qiáng)結(jié)構(gòu)的視覺任務(wù)提供了一套可復(fù)用的強(qiáng)化學(xué)習(xí)范式:把復(fù)雜問題拆解為可度量的細(xì)節(jié)子目標(biāo),用難度建模去矯正樣本分布的「偏與稀」,再以多階段課程銜接「感知優(yōu)先」的子任務(wù)與「推理密集」的規(guī)劃任務(wù)。這樣一來,模型從「看清楚」到「想明白」的路徑被系統(tǒng)化了,訓(xùn)練過程的信噪比與穩(wěn)定性也隨之可控。
同時(shí),基于地圖數(shù)據(jù)的后訓(xùn)練對(duì)多模態(tài)大模型通用能力的提升也得到了驗(yàn)證,未來地圖這類真實(shí)數(shù)據(jù)還將在多模態(tài)大模型不同的階段發(fā)揮更大的作用。





























