類R1強化學(xué)習(xí)遷移到視覺定位!全開源Vision-R1將圖文大模型性能提升50%
圖文大模型通常采用「預(yù)訓(xùn)練 + 監(jiān)督微調(diào)」的兩階段范式進行訓(xùn)練,以強化其指令跟隨能力。受語言領(lǐng)域的啟發(fā),多模態(tài)偏好優(yōu)化技術(shù)憑借其在數(shù)據(jù)效率和性能增益方面的優(yōu)勢,被廣泛用于對齊人類偏好。目前,該技術(shù)主要依賴高質(zhì)量的偏好數(shù)據(jù)標(biāo)注和精準的獎勵模型訓(xùn)練來提升模型表現(xiàn)。然而,這一方法不僅資源消耗巨大,訓(xùn)練過程仍然極具挑戰(zhàn)。
受到基于規(guī)則的強化學(xué)習(xí)(Rule-Based Reinforcement Learning)在 R1 上成功應(yīng)用的啟發(fā),中科院自動化研究所與中科紫東太初團隊探索了如何結(jié)合高質(zhì)量指令對齊數(shù)據(jù)與類 R1 的強化學(xué)習(xí)方法,進一步增強圖文大模型的視覺定位能力。該方法首次在 Object Detection、Visual Grounding 等復(fù)雜視覺任務(wù)上,使 Qwen2.5-VL 模型實現(xiàn)了最高 50% 的性能提升,超越了參數(shù)規(guī)模超過 10 倍的 SOTA 模型。
目前,相關(guān)工作論文、模型及數(shù)據(jù)集代碼均已開源。

- 論文標(biāo)題:Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
- 論文地址:https://arxiv.org/pdf/2503.18013
- Github 倉庫:https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
- Huggingface 倉庫:https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262
引言
目標(biāo)定位任務(wù)要求模型能夠精準識別用戶輸入的任意感興趣目標(biāo),并給出精確的目標(biāo)框,對圖文大模型的細粒度感知和空間理解能力提出了嚴峻挑戰(zhàn)。當(dāng)前,圖文大模型通常將目標(biāo)定位建模為文本序列預(yù)測任務(wù),并通過大規(guī)模預(yù)訓(xùn)練和指令數(shù)據(jù)的監(jiān)督微調(diào),以 Next Token Prediction 實現(xiàn)對不同粒度目標(biāo)描述的精準定位。盡管在指代表達理解等任務(wù)上已超越傳統(tǒng)視覺專家模型,但在更復(fù)雜、目標(biāo)密集的場景中,其視覺定位與目標(biāo)檢測能力仍與專家模型存在顯著差距。
R1 的成功應(yīng)用推動了對基于規(guī)則的任務(wù)級別獎勵監(jiān)督的探索,使模型擺脫了對人工偏好數(shù)據(jù)標(biāo)注和獎勵模型訓(xùn)練的依賴。值得注意的是,視覺定位指令數(shù)據(jù)本身具有精準的空間位置標(biāo)注,并與與人類對精準目標(biāo)定位偏好高度一致。基于這些優(yōu)勢,Vision-R1 通過設(shè)計類 R1 的強化學(xué)習(xí)后訓(xùn)練框架,在任務(wù)級別監(jiān)督中引入基于視覺任務(wù)評價指標(biāo)的反饋獎勵信號,為增強圖文大模型的細粒度視覺定位能力提供了創(chuàng)新突破方向。

Vision-R1 關(guān)鍵設(shè)計示意圖
Vision Criteria-Driven Reward Function
聚焦圖文大模型目標(biāo)定位問題
在文本序列的統(tǒng)一建模和大規(guī)模數(shù)據(jù)的自回歸訓(xùn)練下,圖文大模型在目標(biāo)定位任務(wù)上取得了顯著的性能提升。然而,其進一步發(fā)展仍受到三大關(guān)鍵問題的限制:(1)密集場景中的長序列預(yù)測易出現(xiàn)格式錯誤,(2)有效預(yù)測目標(biāo)的召回率較低,(3)目標(biāo)定位精度不足。
這些問題制約了模型在更復(fù)雜視覺任務(wù)上的表現(xiàn)。在自回歸 Token 級別的監(jiān)督機制下,模型無法獲得實例級別的反饋,而直接在單目標(biāo)場景下應(yīng)用 GRPO 訓(xùn)練方法又忽視了視覺定位任務(wù)的特性及 Completion 級別監(jiān)督的優(yōu)勢。
為此,研究團隊結(jié)合圖文大模型在視覺定位任務(wù)中面臨的挑戰(zhàn),提出了一種基于視覺任務(wù)評價準則驅(qū)動的獎勵函數(shù),其設(shè)計包括以下四個核心部分:
- 框優(yōu)先的預(yù)測匹配:與僅針對單個目標(biāo)進行設(shè)計的方法不同,Vision-R1 采用多目標(biāo)預(yù)測的統(tǒng)一建模方式。為了計算包含多個目標(biāo)預(yù)測的獎勵,Vision-R1 首先對文本序列化的預(yù)測結(jié)果進行反序列化,提取出每個目標(biāo)的預(yù)測框及其標(biāo)簽,并將預(yù)測結(jié)果與真實標(biāo)注進行匹配,以確保獎勵機制能夠全面衡量多目標(biāo)場景下的定位質(zhì)量。
- 雙重格式獎勵:該獎勵項旨在解決密集場景下長序列預(yù)測的格式錯誤問題。對于每個預(yù)測文本序列,模型需滿足指定的模板格式(如 Qwen2.5-VL 采用的 JSON 格式),并確保目標(biāo)坐標(biāo)的數(shù)值正確性。僅當(dāng)預(yù)測結(jié)果同時滿足格式和內(nèi)容要求時,模型才能獲得獎勵 1,從而引導(dǎo)其生成符合標(biāo)準的預(yù)測輸出。
- 召回獎勵:該獎勵項針對有效預(yù)測目標(biāo)召回率低的問題,鼓勵模型盡可能多地識別目標(biāo)。具體而言,針對每個預(yù)測目標(biāo)及其匹配的真實目標(biāo)(GT),當(dāng)兩者的 IoU 超過預(yù)設(shè)閾值 ζ 時,視為該預(yù)測有效。對于一個預(yù)測序列,其召回獎勵定義為有效預(yù)測目標(biāo)數(shù)量與實際需要預(yù)測目標(biāo)數(shù)量的比例,以此激勵模型提高目標(biāo)的覆蓋率。

- 精度獎勵:精度獎勵與召回獎勵協(xié)同作用,形成「1+1>2」的優(yōu)化效果。其中,召回獎勵提升模型對目標(biāo)的全面識別能力,而精度獎勵則確保預(yù)測的準確性。精度獎勵從單實例角度衡量預(yù)測質(zhì)量,其核心目標(biāo)是鼓勵模型生成高質(zhì)量的邊界框。具體地,精度獎勵被定義為所有有效預(yù)測的平均 IoU 值,以直接激勵模型優(yōu)化目標(biāo)框的精確度:


Vision-R1 整體框架
Progressive Rule Refinement Strategy
實現(xiàn)持續(xù)性能提升
在目標(biāo)定位任務(wù)中,預(yù)測高質(zhì)量(高 IoU)的目標(biāo)框始終是一個挑戰(zhàn),尤其是在密集場景和小目標(biāo)情況下。這種困難可能導(dǎo)致模型在同組預(yù)測中獎勵差異較小,從而影響優(yōu)化效果。針對這一問題,研究團隊提出了漸進式規(guī)則調(diào)整策略,該策略通過在訓(xùn)練過程中動態(tài)調(diào)整獎勵計算規(guī)則,旨在實現(xiàn)模型的持續(xù)性能提升。該策略主要包括兩個核心部分:
差異化策略:該策略的目標(biāo)是擴大預(yù)測結(jié)果與實際獎勵之間的映射差異。具體而言,通過懲罰低召回率(Recall)和低平均 IoU 的預(yù)測,并對高召回率和高 IoU 的預(yù)測給予較高獎勵,從而鼓勵模型生成更高質(zhì)量的預(yù)測,尤其是在當(dāng)前能夠達到的最佳預(yù)測上獲得最大獎勵。這一策略引導(dǎo)模型在訓(xùn)練過程中逐漸提高預(yù)測精度,同時避免低質(zhì)量預(yù)測的獎勵過高,促進其優(yōu)化。具體實現(xiàn)如下:

階段漸近策略:類似于許多有效的學(xué)習(xí)方法,給初學(xué)者設(shè)定容易實現(xiàn)的目標(biāo)并逐步提升獎勵難度是一個常見且行之有效的策略。在 Vision-R1 中,訓(xùn)練過程被劃分為初學(xué)階段和進階階段,并通過逐步調(diào)整閾值 ζ 來實現(xiàn)獎勵規(guī)則的逐漸變化。具體來說:
- 初學(xué)階段(Beginner Phase): 在這一階段,設(shè)置較低的 ζ 閾值(0.5/0.75),給予模型相對寬松的獎勵標(biāo)準,幫助其快速入門并學(xué)習(xí)基礎(chǔ)的定位能力。
- 進階階段(Advanced Phase): 隨著訓(xùn)練的深入,逐步提高 ζ 閾值,增加標(biāo)準要求,以促使模型達到更高的準確度,避免模型依賴簡單策略,從而持續(xù)推動模型性能的提升。
不同模型的域內(nèi)外目標(biāo)檢測評測
為全面評估 Vision-R1 的效果,研究團隊選擇了近期定位能力大幅提升的 Qwen2.5-VL-7B 模型和定位能力突出的 Griffon-G-7B 模型,在更有挑戰(zhàn)的經(jīng)典目標(biāo)檢測數(shù)據(jù)集 COCO 和多樣場景的 ODINW-13 上進行測試,以展現(xiàn)方法對不同定位水平模型的適用性。

經(jīng)典 COCO/ODINW 數(shù)據(jù)集上 Vision-R1 方法相較于基線模型性能的提升
實驗結(jié)果表明,無論基礎(chǔ)性能如何,與基線模型相比這些模型在 Vision-R1 訓(xùn)練后性能大幅提升,甚至超過同系列 SOTA 模型,進一步接近了定位專家模型。
研究團隊還在模型沒有訓(xùn)練的域外定位數(shù)據(jù)集上進行測試,Vision-R1 在不同模型的四個數(shù)據(jù)集上取得了平均 6% 的性能提升,充分論證了方法的泛化性。

域外數(shù)據(jù)集上 Vision-R1 方法相較于基線模型性能的提升
模型通用問答能力評測
研究團隊進一步評估了模型在非定位等通用任務(wù)上的性能,以驗證方法是否能在少量影響模型通用能力的情況下,大幅度提升模型的視覺定位能力。研究團隊發(fā)現(xiàn),Vision-R1 近乎不損失模型的通用能力,在通用問答、圖表問答等評測集上模型實現(xiàn)了與基準模型基本一致的性能。

通用問答數(shù)據(jù)集上 Vision-R1 方法與基線模型性能的比較
可視化分析
研究團隊提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多個場景下的目標(biāo)檢測可視化結(jié)果。如結(jié)果所示,Vision-R1 訓(xùn)練后,模型能夠更好召回所感興趣的物體,并進一步提升定位的精度。

Vision-R1 訓(xùn)練模型與基準模型檢測結(jié)果可視化





































