業(yè)界突破多模態(tài)泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術(shù)
用上動態(tài)強化學(xué)習(xí),多模態(tài)大模型也能實現(xiàn)泛化推理了?!
來自O(shè)PPO研究院和港科廣的科研人員提出了一項新技術(shù)——OThink-MR1,將強化學(xué)習(xí)擴展到多模態(tài)語言模型,幫助其更好地應(yīng)對各種復(fù)雜任務(wù)和新場景。
研究人員表示,這一技術(shù)使業(yè)界突破多模態(tài)泛化推理能力。
眾所周知,多模態(tài)大模型可以處理多種類型輸入數(shù)據(jù)并生成相關(guān)輸出,但一遇到復(fù)雜推理任務(wù),其能力往往表現(xiàn)不佳。
目前大多數(shù)多模態(tài)模型在訓(xùn)練時,主要采用監(jiān)督微調(diào)(SFT)的方法。
SFT就像是老師給學(xué)生劃重點,讓學(xué)生按照固定的模式學(xué)習(xí)。雖然這種方法在特定任務(wù)上確實能讓模型表現(xiàn)得不錯,但難以培養(yǎng)關(guān)鍵的通用推理能力。
與此同時,強化學(xué)習(xí)(RL)作為另一種訓(xùn)練方法,開始進入人們的視野。
RL就像是讓學(xué)生在不斷嘗試中學(xué)習(xí),做得好就給獎勵,做得不好就“挨批評”。這種方法理論上可以讓模型更靈活地應(yīng)對各種任務(wù),提升其推理能力,但卻存在多模態(tài)任務(wù)通用能力未充分探索、訓(xùn)練約束易導(dǎo)致次優(yōu)瓶頸等問題。
于是乎,OThink-MR1技術(shù)應(yīng)運而生。
那么,它是如何讓多模態(tài)模型突破泛化推理能力的呢?
基于動態(tài)強化學(xué)習(xí)
OThink-MR1是一個基于動態(tài)強化學(xué)習(xí)的框架和模型,支持微調(diào)多模態(tài)語言模型。
其核心“招式”有兩個:一個是動態(tài)KL散度策略(GRPO-D),另一個是精心設(shè)計的獎勵模型。二者相互配合,讓模型的學(xué)習(xí)效率和推理能力大幅提升。
先說動態(tài)KL散度策略。
在強化學(xué)習(xí)里,探索新的策略和利用已有經(jīng)驗是兩個很重要的方面,但以前的方法很難平衡這二者的關(guān)系,不是在探索階段浪費太多時間,就是過早地依賴已有經(jīng)驗。
而動態(tài)KL散度策略就像是給模型裝了一個“智能導(dǎo)航儀”,能根據(jù)訓(xùn)練進度動態(tài)調(diào)整探索和利用的平衡。
打個比方,在訓(xùn)練初期,它讓模型像個充滿好奇心的孩子,大膽地去探索各種可能的策略。而隨著訓(xùn)練的進行,它又會引導(dǎo)模型逐漸利用之前積累的經(jīng)驗,沿著更靠譜的路線前進。
這樣一來,模型就能更有效地學(xué)習(xí),避免陷入局部最優(yōu)解。
再說獎勵模型。在OThink-MR1里,獎勵模型就像是老師給學(xué)生打分的標準。
對于多模態(tài)任務(wù),科研人員設(shè)計了兩種獎勵:一種是驗證準確性獎勵,另一種是格式獎勵。
比如在視覺計數(shù)任務(wù)中,模型要數(shù)出圖片里物體的數(shù)量,如果數(shù)對了,就能得到驗證準確性獎勵;同時,如果模型的回答格式符合要求,像按照規(guī)定的格式寫下答案,還能獲得格式獎勵。
這兩種獎勵加起來,就像老師從多個方面給學(xué)生打分,讓模型知道自己在哪些地方做得好,哪些地方還需要改進,從而更有針對性地學(xué)習(xí)。
實驗環(huán)節(jié)
為了驗證OThink-MR1的實力,科研人員進行了一系列實驗。
第一個實驗是探究獎勵項和KL散度項對原始GRPO(一種基于強化學(xué)習(xí)的方法)在同任務(wù)驗證中的影響。
在幾何推理任務(wù)中,科研人員調(diào)整格式獎勵的權(quán)重,發(fā)現(xiàn)當格式獎勵的權(quán)重不為零時,模型的表現(xiàn)明顯更好。這就好比學(xué)生寫作文,不僅內(nèi)容要正確,格式規(guī)范也能加分,這樣能讓學(xué)生更全面地提升自己的能力。
同時,調(diào)整KL散度的權(quán)重時,他們發(fā)現(xiàn)權(quán)重適中時模型表現(xiàn)最佳,太大或太小都會讓模型成績下降。
第二個實驗是跨任務(wù)評估,這可是一場真正的“大考”。
以往的研究大多只在同一個任務(wù)的不同數(shù)據(jù)分布上評估模型的泛化能力,而這次實驗直接讓模型挑戰(zhàn)完全不同類型的任務(wù)。
科研人員選擇了視覺計數(shù)任務(wù)和幾何推理任務(wù),這兩個任務(wù)難度不同,對模型的能力要求也不一樣。
在跨任務(wù)驗證中,用監(jiān)督微調(diào)訓(xùn)練的模型表現(xiàn)得很差。就像一個只會做一種題型的學(xué)生,換了另一種題型就完全不會了。
而經(jīng)過GRPO-D訓(xùn)練的模型則表現(xiàn)出色,在從推理任務(wù)到理解任務(wù)的泛化實驗中,它的成績相比沒有經(jīng)過訓(xùn)練的模型提高了很多;在從理解任務(wù)到推理任務(wù)的泛化實驗中,雖然難度更大,但它也取得了不錯的進步。
這就好比一個學(xué)生不僅擅長數(shù)學(xué),還能快速掌握語文知識,展現(xiàn)出了很強的學(xué)習(xí)能力。
第三個實驗是同任務(wù)評估。
實驗結(jié)果顯示,在同任務(wù)驗證中,采用固定KL散度的GRPO方法不如監(jiān)督微調(diào),但OThink-MR1中的GRPO-D卻能逆襲。
它在視覺計數(shù)和幾何推理任務(wù)上,成績都超過了監(jiān)督微調(diào),這就像一個原本成績一般的學(xué)生,找到了適合自己的學(xué)習(xí)方法后,成績突飛猛進,直接超過了那些只會死記硬背的同學(xué)。
總體而言,OThink-MR1的出現(xiàn),為多模態(tài)語言模型的發(fā)展開辟了新的道路。
它讓我們看到了動態(tài)強化學(xué)習(xí)在提升模型推理能力和泛化能力方面的巨大潛力。在未來,基于OThink-MR1這樣的技術(shù),多模態(tài)語言模型有望在更多領(lǐng)域發(fā)揮重要作用。
論文地址:https://arxiv.org/abs/2503.16081
? 標題:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning
? 作者:劉志遠1, 章玉婷2, 劉豐1, 張長旺1, 孫瑩2, 王俊1
? 單位:1.OPPO研究院, 2.香港科技大學(xué)(廣州)