One RL to See Them All?一個強化學習統(tǒng)一視覺-語言任務!
強化學習 (RL) 顯著提升了視覺-語言模型 (VLM) 的推理能力。然而,RL 在推理任務之外的應用,尤其是在目標檢測和目標定位等感知密集型任務中的應用,仍有待深入探索。
近日,國內(nèi)初創(chuàng)公司 MiniMax 提出了 V-Triune,一個視覺三重統(tǒng)一強化學習系統(tǒng),它能使 VLM 在單一的訓練流程中同時學習視覺推理和感知任務。
- 論文標題:One RL to See Them All
- 論文地址:https://arxiv.org/pdf/2505.18129
- 代碼地址:https://github.com/MiniMax-AI
V-Triune 包含三個互補的組件:樣本級數(shù)據(jù)格式化 (Sample-Level Data Formatting)(用以統(tǒng)一多樣化的任務輸入)、驗證器級獎勵計算 (Verifier-Level Reward Computation)(通過專門的驗證器提供定制化獎勵)以及數(shù)據(jù)源級指標監(jiān)控 (Source-Level Metric Monitoring)(用以診斷數(shù)據(jù)源層面的問題)。
MiniMax 進一步引入了一種新穎的動態(tài) IoU 獎勵,它為 V-Triune 處理的感知任務提供自適應、漸進且明確的反饋。該方法在現(xiàn)成的 RL 訓練框架內(nèi)實現(xiàn),并使用了開源的 7B 和 32B 骨干模型。由此產(chǎn)生的模型,MiniMax 稱之為 Orsta (One RL to See Them All),在推理和感知任務上均展現(xiàn)出持續(xù)的性能提升。
這種廣泛的能力很大程度上得益于其在多樣化數(shù)據(jù)集上的訓練,該數(shù)據(jù)集圍繞四種代表性的視覺推理任務(數(shù)學、謎題、圖表和科學)和四種視覺感知任務(目標定位、檢測、計數(shù)和光學字符識別 (OCR))構(gòu)建。
最終,Orsta 在 MEGA-Bench Core 基準測試中取得了顯著的進步,其不同的 7B 和 32B 模型變體性能提升范圍從 +2.1 到驚人的 +14.1,并且這種性能優(yōu)勢還擴展到了廣泛的下游任務中。這些結(jié)果凸顯了 MiniMax 新提出的統(tǒng)一 RL 方法應用于 VLM 的有效性和可擴展性。
V-Triune:視覺三重統(tǒng)一強化學習系統(tǒng)
V-Triune 的主要目標是使用單一、統(tǒng)一的訓練流程,在視覺推理和感知任務上聯(lián)合訓練視覺-語言模型 (VLM),如圖 2 所示。
該系統(tǒng)建立在三個核心且相互關(guān)聯(lián)的部分之上,旨在協(xié)同處理這些多樣化的任務。接下來將詳細解釋這三個核心組件,并介紹 MiniMax 新穎的動態(tài) IoU 獎勵機制。
樣本級數(shù)據(jù)格式化
MiniMax 是如何格式化數(shù)據(jù)以支持跨感知和推理任務的統(tǒng)一訓練的呢?
一個主要挑戰(zhàn)是,不同任務可能需要不同類型的獎勵、組件和加權(quán)策略。例如,像數(shù)學、謎題和光學字符識別 (OCR) 這樣的任務,其獎勵是基于文本答案的正確性來計算的,而檢測和定位任務則依賴于空間度量,如 IoU 和邊界框格式。
在傳統(tǒng)的 RL 設置中,獎勵計算通常在任務級別定義。雖然這允許外部實現(xiàn)模塊化的獎勵函數(shù),但在需要細粒度控制時限制了靈活性。
許多多模態(tài)任務可能包含需要不同獎勵策略的異構(gòu)樣本。例如,OCR 數(shù)據(jù)可能同時包含純文本行和復雜表格,每種都需要不同的評估規(guī)則。
同樣,檢測樣本在對象數(shù)量、標注完整性或視覺難度方面可能存在顯著差異,這表明需要對獎勵行為進行樣本級的調(diào)整。
為了支持這種靈活性,MiniMax 直接在樣本級別定義獎勵配置。每個樣本指定要計算的獎勵類型、它們的相對權(quán)重以及要使用的關(guān)聯(lián)驗證器 (verifier)。這允許在訓練期間進行動態(tài)獎勵路由和細粒度加權(quán),而無需修改核心訓練邏輯。
它還可以通過簡單調(diào)整元數(shù)據(jù)來支持課程學習 (curriculum learning) 或數(shù)據(jù)消融策略,使系統(tǒng)更具可擴展性和可維護性。
如圖 3 所示,MiniMax 使用 Hugging Face datasets 實現(xiàn)他們的數(shù)據(jù)模式,它作為所有數(shù)據(jù)源的統(tǒng)一接口。
通過在單個樣本級別定義 reward_model(包括獎勵類型、像 accuracy_ratio /format_ratio 這樣的權(quán)重)和 verifier(驗證器)規(guī)范,實現(xiàn)了對獎勵計算的細粒度控制。這使得能夠靈活且可擴展地處理各種多模態(tài)任務。
總之,樣本級格式化設計能夠?qū)⒍鄻踊臄?shù)據(jù)集無縫集成到統(tǒng)一的訓練流程中,同時允許高度靈活和可擴展的獎勵控制。
驗證器級獎勵計算
與使用固定獎勵函數(shù)的方法不同,MiniMax 實現(xiàn)了一個獨立的、異步的獎勵服務器來生成 RL 信號,以取代固定的獎勵函數(shù)。 該系統(tǒng)基于 FastAPI 的異步客戶端-服務器架構(gòu)(圖 4) 。
這種將獎勵計算與主訓練循環(huán)解耦的設計,帶來了模塊化、可擴展性、靈活性和高吞吐量等關(guān)鍵優(yōu)勢,尤其便于獨立擴展和分布式處理。
獎勵計算在「驗證器級」進行:服務器將請求路由到用戶定義的驗證器,它們根據(jù)模型輸出和真實標簽計算任務獎勵。MiniMax 主要使用兩種:
- MathVerifyVerifier:通過評估答案正確性來處理推理、OCR 和計數(shù)任務。
- DetectionVerifier: 處理檢測、定位任務,并支持動態(tài) IoU 獎勵。
這種驗證器級架構(gòu)極大地增強了系統(tǒng)的靈活性和模塊化,使得添加新任務或更新獎勵邏輯變得簡單,且無需修改核心訓練流程。
數(shù)據(jù)源級指標監(jiān)控
在處理多任務、多源訓練時,傳統(tǒng)的聚合或單任務指標往往因為缺乏可追溯性以及無法反映各數(shù)據(jù)源的內(nèi)在差異,而不足以深入理解模型動態(tài)或進行有效診斷。因此,MiniMax 采納了數(shù)據(jù)源級指標監(jiān)控 (Source-Level Metric Monitoring) 策略。
該方法的核心是為每個訓練批次,按數(shù)據(jù)源分別記錄關(guān)鍵性能指標。這種精細化的追蹤方式具有顯著優(yōu)勢:它不僅能幫助我們快速識別出表現(xiàn)不佳或存在問題的數(shù)據(jù)源,還能支持有針對性的調(diào)試,并有助于揭示不同數(shù)據(jù)源在學習過程中的相互作用與影響。
考慮到強化學習訓練過程可能存在的不穩(wěn)定性,這種細粒度的監(jiān)控對于驗證模型的穩(wěn)定性和行為模式尤為重要,能夠提供比許多標準 RL 基礎設施更深入的洞察力。
具體來說,監(jiān)控的關(guān)鍵指標包括:
- 各源獎勵值:用以追蹤不同數(shù)據(jù)集對模型訓練的貢獻及穩(wěn)定性。
- 感知任務 IoU/mAP:按來源記錄詳細的 IoU 值(在多個閾值下)和 mAP 分數(shù),以獲得對模型在檢測、定位等任務上收斂情況的細粒度見解。
- 響應長度與截斷率:通過分析輸出長度來判斷模型是否存在生成內(nèi)容過于冗長或坍塌 (collapsed generation) 的問題。
- 反思率 (Reflection Ratio):通過追蹤特定反思詞匯的出現(xiàn)頻率及其與答案正確性的關(guān)聯(lián),來診斷模型的 “思考” 模式,例如是傾向于過度思考 (overthinking) 還是淺層響應 (superficial responses)。所有這些指標都按數(shù)據(jù)源持續(xù)記錄。
動態(tài) IoU 獎勵
在目標檢測和視覺定位任務中,MiniMax 選擇 IoU 作為核心獎勵機制,而非直接使用 mAP。實驗表明,盡管 mAP 是評估標準,但基于閾值的 IoU 獎勵能在達到相當性能的同時,提供更易于解釋和控制的反饋信號(如圖 5a 所示),這對于指導 RL 訓練過程至關(guān)重要。
然而,設定一個固定的 IoU 閾值面臨著兩難境地。一方面,過于寬松的閾值(例如 ?? = 0.5 )雖然容易達成,但對于 VLM 的 RL 訓練來說可能過于模糊,無法有效區(qū)分預測質(zhì)量的細微差異,甚至可能因獎勵模糊性導致模型在訓練后期性能下降。
另一方面,采用非常嚴格的閾值(例如 ?? = 0.99 )雖然能確保預測與真實標簽高度一致,增強感知與推理信號的統(tǒng)一性,并可能提升訓練穩(wěn)定性,但其嚴苛性會在訓練初期引發(fā)冷啟動 (cold-start) 問題 —— 大多數(shù)早期的、不完美的預測會獲得 0 獎勵,使得模型難以學習(如圖 5b 所示)。
為了克服這一挑戰(zhàn),MiniMax 設計了動態(tài) IoU 獎勵策略。該策略借鑒了課程學習的思想,通過在訓練過程中動態(tài)調(diào)整 IoU 閾值。
? 來平衡學習效率和最終精度。具體做法是:在訓練的初始 10% 步驟中使用相對寬松的 0.85 閾值,以便模型快速入門;在接下來的 15% 步驟中提升至 0.95;最后,在訓練的剩余階段采用 0.99 的嚴格閾值,以追求最高的定位精度(如圖 6 所示)。這種漸進式的方法旨在平穩(wěn)地引導模型學習,避免冷啟動,同時確保最終的高性能。
訓練方法
V-Triune 支持可擴展的數(shù)據(jù)、任務、驗證器和指標系統(tǒng)。不過,早期實驗表明,聯(lián)合訓練可能會導致不穩(wěn)定,具體包括評估性能下降、梯度范數(shù)突然飆升、熵波動較大、響應長度突然增加,尤其是在輸出錯誤的情況下。
為了解決訓練不穩(wěn)定性和可擴展性問題,MiniMax 進行了有針對性的調(diào)整,包括凍結(jié) ViT 以防止梯度爆炸、過濾虛假圖像 token、隨機化 CoT 提示詞以及解耦評估以在大規(guī)模訓練期間管理內(nèi)存。
禁用 ViT 訓練
在初始實驗中,MiniMax 的做法是通過聯(lián)合優(yōu)化 ViT 和 LLM 進行全參數(shù)訓練。然而,無論超參數(shù)設置如何,檢測性能在數(shù)十步之后都會持續(xù)下降。日志分析表明梯度范數(shù)異常大且出現(xiàn)峰值(通常 >1),這表明不穩(wěn)定源于 ViT。對此分析,MiniMax 還進行了實驗驗證。
如圖 7a 所示,聯(lián)合訓練會導致性能下降,而僅 LLM 訓練則能維持穩(wěn)定的提升。僅 ViT 訓練的提升甚微,這表明強化學習的優(yōu)勢主要源于更新 LLM。圖 7b 則表明,ViT 訓練產(chǎn)生的梯度范數(shù)顯著提高 —— 比僅 LLM 訓練高出 10 倍以上。
逐層分析(圖 7c)證實了這一點:LLM 梯度在各層之間保持穩(wěn)定,而 ViT 梯度在反向傳播過程中會放大 —— 第一層的范數(shù)比最后一層高 5 到 10 倍。這種梯度爆炸會破壞訓練的穩(wěn)定性,并損害視覺性能。
因此,MiniMax 選擇在后續(xù)實驗中凍結(jié) ViT 的參數(shù)。
雖然這種不穩(wěn)定性背后的根本原因仍未得到研究解釋,但 MiniMax 提供了兩個關(guān)鍵見解。
一、強化學習不僅激活了視覺 - 語言模型 (VLM) 的功能,還會強制模態(tài)對齊。當 ViT 和 LLM 聯(lián)合訓練時,視覺表征(即對齊目標)會不斷變化,導致不穩(wěn)定,類似于機器學習中的概念漂移(concept drift)問題。這種動態(tài)目標會導致優(yōu)化不穩(wěn)定,并可能導致模型崩潰。類似于 GAN 的交替訓練(凍結(jié)一個組件的同時更新另一個組件)也許是一種解決方案。
二、ViT 的對比預訓練可能會限制其在強化學習中的適用性,因為它會鼓勵使用靜態(tài)的實例級特征,而不是強化學習任務所需的動態(tài)因果表示。為了緩解這種不匹配,可以在強化學習期間引入輔助自監(jiān)督目標,以幫助 ViT 適應不斷變化的任務需求。
緩解虛假圖像特殊 token
為了實現(xiàn)準確的優(yōu)勢估計,查詢和生成響應的 logit 向量都會重新計算,因為推理引擎返回的 logit 向量可能不精確。在前向傳遞過程中,圖像占位符(圖 8 中紅色框,出現(xiàn)在 “vision_end” token 之前)將被 ViT 和適配器模塊提取的視覺特征替換。然而,模型可能會錯誤地生成缺少相應特征的特殊 token(圖 8 中藍色框),例如圖像或視頻占位符 —— 尤其是在 RL-zero 設置下。
為了確保輸入特征對齊并保持訓練穩(wěn)定性,在重新計算之前,會應用一個過濾步驟,將所有此類特殊 token 從 rollout 序列中移除。
CoT 提示詞池
在視覺數(shù)學任務訓練的早期階段,盡管 CoT 提示詞傳達的含義相同,但其差異可能會影響模型性能,影響準確度和響應長度等指標。為了減少這種差異,MiniMax 構(gòu)建了一個 CoT 提示詞池,其中包含 10 個「讓 MiniMax 一步一步思考」的備選方案和 10 個「將答案放入 \boxed {}」的備選方案。
在訓練期間,MiniMax 會從每組中隨機選擇一個句子并附加到指令中。此策略可以減輕提示詞引起的差異,并會專門應用于使用 MathVerifyVerifier 驗證的樣本。
系統(tǒng)內(nèi)存管理
V-Trinue 基于 Verl 實現(xiàn),Verl 是一個單控制器訓練框架,它可以接近主節(jié)點上的系統(tǒng)內(nèi)存極限,尤其是在處理大規(guī)模視覺數(shù)據(jù)集時。
為了實現(xiàn)有效的 OOD 性能監(jiān)控,MiniMax 會定期引入在線測試集基準測試。
為了減輕由此產(chǎn)生的系統(tǒng)開銷,MiniMax 的做法是將測試階段與主訓練循環(huán)和批處理基準分離,從而繞過默認的 vLLM 數(shù)據(jù)處理。
實驗表現(xiàn)如何?
MiniMax 自然也進行了實驗驗證。模型方面,他們采用了 Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct 作為基礎模型。
V-Triune 的實現(xiàn)則基于 verl。MiniMax 啟用原生 FSDP 進行訓練,并使用 vLLM 進行生成。所有實驗均在 64 塊 NVIDIA H20 GPU 上完成。
此外,他們也進行了數(shù)據(jù)的整編,其中包括許多不同任務的數(shù)據(jù)集和兩個過濾階段:基于規(guī)則過濾以及基于難度過濾。最終,他們得到了一個包含 2.06 萬感知樣本和 2.71 萬推理樣本的語料庫。
有關(guān)訓練細節(jié)和評估基準的更多詳細描述請參閱原論文,下面來重點看看主要實驗結(jié)果。
MEGA-Bench
表 1 給出了 Orsta 與其骨干模型以及領(lǐng)先的通用 / 推理增強型 VLM 的全面比較。
可以看到,在 7B 和 32B 規(guī)模上,Orsta 均表現(xiàn)出了持續(xù)的提升:Orsta-7B 在 MEGA-Bench Core 上達到 38.31 (+3.2),Orsta-32B 達到 45.78 (+2.1)。
對于具有豐富訓練數(shù)據(jù)的領(lǐng)域(數(shù)學、感知、規(guī)劃和科學),MiniMax 的方法 V-Triune 為性能帶來了顯著提升。這表明其在推理和感知任務中均具有強大的泛化能力。相比之下,由于稀疏監(jiān)督,編程和指標相關(guān)任務的提升有限,這凸顯了新提出的統(tǒng)一強化學習訓練方法的目標可擴展性。
圖 11 展示了三個 Orsta 變體(7B、32B-0321、32B-0326)在在線策略和離線策略強化學習下的 MEGA-Bench 性能軌跡。
可以看到,所有變體均表現(xiàn)出穩(wěn)定的改進,在線策略訓練通常優(yōu)于離線策略訓練。7B 模型表現(xiàn)出更平滑、更顯著的增益,而 32B 模型的進展則更慢或更不穩(wěn)定 —— 表明規(guī)模更大時,優(yōu)化難度也更大。
Qwen2.5-VL-0321 在感知和輸出格式方面存在已知的問題,但在推理任務中表現(xiàn)可靠,這已得到 MiniMax 的評估和 VL-Rethinker 研究的證實。這些問題在后續(xù)的 0326 版本中得到了解決。MiniMax 認為 0321 版本是一個很不錯的基線,具有核心知識能力。
如圖 12 所示,Orsta-32B-0321 表明強化學習作為一種對齊機制,而不是引入新的能力,主要會增強現(xiàn)有模型的優(yōu)勢。在數(shù)學、感知、科學和規(guī)劃等領(lǐng)域,性能提升最為顯著,而在編程等領(lǐng)域外任務中則提升有限,這凸顯了以對齊為重的強化學習的影響。
總而言之,MiniMax 的結(jié)果表明,強化學習能夠在統(tǒng)一的框架內(nèi)有效增強視覺推理和感知能力。強化學習在 MEGA-Bench Core 的 440 個不同任務上實現(xiàn)了持續(xù)的性能提升,表明其可以作為通用的對齊策略,能夠釋放預訓練視覺-語言模型的潛力。
常見下游任務
表 2 給出了在常見視覺推理和感知任務上各模型的表現(xiàn)。
可以看到,在 7B 規(guī)模下 Orsta 的性能比其骨干模型高出 4%,在 32B-0326 規(guī)模下的性能比其骨干模型高出 1%。
在以數(shù)學為中心的 MathVista 基準上,Orsta 在所有模型規(guī)模上都實現(xiàn)了超過 5% 的性能提升。這些結(jié)果與 MEGA-Bench 數(shù)學任務上觀察到的提升一致,進一步證明了 Orsta 在提升推理能力方面的優(yōu)勢。
視覺感知能力上,Orsta 在各個基準上均有提升。
在 COCO 檢測任務上,Orsta-7B 取得了顯著提升(單目標檢測 +7.81 mAP 和 +12.17 mAP@50;多目標檢測 +3.77 mAP 和 +5.48 mAP@50),在更簡單的場景中提升尤為顯著。Orsta-32B-0321 亦提升明顯,并解決了先前的感知問題,而 Orsta-32B-0326 在兩個子集上均實現(xiàn)了 +3% 的 mAP 提升。
在 OVDEval 測試上,Orsta-7B 和 32B 分別提升了 +5.3 和 +3.5 mAP,驗證了動態(tài) IoU 獎勵的有效性。在 GUI 和 OCR 任務(ScreenSpotPro、OCRBench)上,Orsta-7B 和 32B 分別實現(xiàn)了 +5.3 和 +3.5 的 mAP 提升。在 CountBench 上的提升最為顯著,Orsta-7B 的表現(xiàn)優(yōu)于 32B SFT 模型,而 Orsta-32B 則創(chuàng)下了新的最高水平。
總體而言,V-Triune 對對齊程度較低的基礎模型 (0321) 的感知改進比對已完成訓練的模型 (0326) 的感知改進更大。
MiniMax 也進行了訓練指標分析和消融研究,進一步驗證了新方法的優(yōu)勢,詳見原論文。