偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

業(yè)界突破多模態(tài)泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術(shù)

人工智能 新聞
來自O(shè)PPO研究院和港科廣的科研人員提出了一項新技術(shù)——OThink-MR1,將強化學(xué)習(xí)擴展到多模態(tài)語言模型,幫助其更好地應(yīng)對各種復(fù)雜任務(wù)和新場景。

用上動態(tài)強化學(xué)習(xí),多模態(tài)大模型也能實現(xiàn)泛化推理了?!

來自O(shè)PPO研究院和港科廣的科研人員提出了一項新技術(shù)——OThink-MR1,將強化學(xué)習(xí)擴展到多模態(tài)語言模型,幫助其更好地應(yīng)對各種復(fù)雜任務(wù)和新場景。

研究人員表示,這一技術(shù)使業(yè)界突破多模態(tài)泛化推理能力。

圖片

眾所周知,多模態(tài)大模型可以處理多種類型輸入數(shù)據(jù)并生成相關(guān)輸出,但一遇到復(fù)雜推理任務(wù),其能力往往表現(xiàn)不佳。

目前大多數(shù)多模態(tài)模型在訓(xùn)練時,主要采用監(jiān)督微調(diào)(SFT)的方法。

SFT就像是老師給學(xué)生劃重點,讓學(xué)生按照固定的模式學(xué)習(xí)。雖然這種方法在特定任務(wù)上確實能讓模型表現(xiàn)得不錯,但難以培養(yǎng)關(guān)鍵的通用推理能力。

與此同時,強化學(xué)習(xí)(RL)作為另一種訓(xùn)練方法,開始進入人們的視野。

RL就像是讓學(xué)生在不斷嘗試中學(xué)習(xí),做得好就給獎勵,做得不好就“挨批評”。這種方法理論上可以讓模型更靈活地應(yīng)對各種任務(wù),提升其推理能力,但卻存在多模態(tài)任務(wù)通用能力未充分探索、訓(xùn)練約束易導(dǎo)致次優(yōu)瓶頸等問題。

圖片

于是乎,OThink-MR1技術(shù)應(yīng)運而生。

那么,它是如何讓多模態(tài)模型突破泛化推理能力的呢?

基于動態(tài)強化學(xué)習(xí)

OThink-MR1是一個基于動態(tài)強化學(xué)習(xí)的框架和模型,支持微調(diào)多模態(tài)語言模型。

其核心“招式”有兩個:一個是動態(tài)KL散度策略(GRPO-D),另一個是精心設(shè)計的獎勵模型。二者相互配合,讓模型的學(xué)習(xí)效率和推理能力大幅提升。

圖片

先說動態(tài)KL散度策略

在強化學(xué)習(xí)里,探索新的策略和利用已有經(jīng)驗是兩個很重要的方面,但以前的方法很難平衡這二者的關(guān)系,不是在探索階段浪費太多時間,就是過早地依賴已有經(jīng)驗。

而動態(tài)KL散度策略就像是給模型裝了一個“智能導(dǎo)航儀”,能根據(jù)訓(xùn)練進度動態(tài)調(diào)整探索和利用的平衡。

打個比方,在訓(xùn)練初期,它讓模型像個充滿好奇心的孩子,大膽地去探索各種可能的策略。而隨著訓(xùn)練的進行,它又會引導(dǎo)模型逐漸利用之前積累的經(jīng)驗,沿著更靠譜的路線前進。

這樣一來,模型就能更有效地學(xué)習(xí),避免陷入局部最優(yōu)解。

再說獎勵模型。在OThink-MR1里,獎勵模型就像是老師給學(xué)生打分的標準。

對于多模態(tài)任務(wù),科研人員設(shè)計了兩種獎勵:一種是驗證準確性獎勵,另一種是格式獎勵。

比如在視覺計數(shù)任務(wù)中,模型要數(shù)出圖片里物體的數(shù)量,如果數(shù)對了,就能得到驗證準確性獎勵;同時,如果模型的回答格式符合要求,像按照規(guī)定的格式寫下答案,還能獲得格式獎勵。

這兩種獎勵加起來,就像老師從多個方面給學(xué)生打分,讓模型知道自己在哪些地方做得好,哪些地方還需要改進,從而更有針對性地學(xué)習(xí)。

實驗環(huán)節(jié)

為了驗證OThink-MR1的實力,科研人員進行了一系列實驗。

第一個實驗是探究獎勵項和KL散度項對原始GRPO(一種基于強化學(xué)習(xí)的方法)在同任務(wù)驗證中的影響。

在幾何推理任務(wù)中,科研人員調(diào)整格式獎勵的權(quán)重,發(fā)現(xiàn)當格式獎勵的權(quán)重不為零時,模型的表現(xiàn)明顯更好。這就好比學(xué)生寫作文,不僅內(nèi)容要正確,格式規(guī)范也能加分,這樣能讓學(xué)生更全面地提升自己的能力。

同時,調(diào)整KL散度的權(quán)重時,他們發(fā)現(xiàn)權(quán)重適中時模型表現(xiàn)最佳,太大或太小都會讓模型成績下降。

圖片

第二個實驗是跨任務(wù)評估,這可是一場真正的“大考”。

以往的研究大多只在同一個任務(wù)的不同數(shù)據(jù)分布上評估模型的泛化能力,而這次實驗直接讓模型挑戰(zhàn)完全不同類型的任務(wù)。

科研人員選擇了視覺計數(shù)任務(wù)和幾何推理任務(wù),這兩個任務(wù)難度不同,對模型的能力要求也不一樣。

圖片


在跨任務(wù)驗證中,用監(jiān)督微調(diào)訓(xùn)練的模型表現(xiàn)得很差。就像一個只會做一種題型的學(xué)生,換了另一種題型就完全不會了。

而經(jīng)過GRPO-D訓(xùn)練的模型則表現(xiàn)出色,在從推理任務(wù)到理解任務(wù)的泛化實驗中,它的成績相比沒有經(jīng)過訓(xùn)練的模型提高了很多;在從理解任務(wù)到推理任務(wù)的泛化實驗中,雖然難度更大,但它也取得了不錯的進步。

這就好比一個學(xué)生不僅擅長數(shù)學(xué),還能快速掌握語文知識,展現(xiàn)出了很強的學(xué)習(xí)能力。

圖片

第三個實驗是同任務(wù)評估。

實驗結(jié)果顯示,在同任務(wù)驗證中,采用固定KL散度的GRPO方法不如監(jiān)督微調(diào),但OThink-MR1中的GRPO-D卻能逆襲。

它在視覺計數(shù)和幾何推理任務(wù)上,成績都超過了監(jiān)督微調(diào),這就像一個原本成績一般的學(xué)生,找到了適合自己的學(xué)習(xí)方法后,成績突飛猛進,直接超過了那些只會死記硬背的同學(xué)。

圖片

總體而言,OThink-MR1的出現(xiàn),為多模態(tài)語言模型的發(fā)展開辟了新的道路。

它讓我們看到了動態(tài)強化學(xué)習(xí)在提升模型推理能力和泛化能力方面的巨大潛力。在未來,基于OThink-MR1這樣的技術(shù),多模態(tài)語言模型有望在更多領(lǐng)域發(fā)揮重要作用。

論文地址:https://arxiv.org/abs/2503.16081

? 標題:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

? 作者:劉志遠1, 章玉婷2, 劉豐1, 張長旺1, 孫瑩2, 王俊1

? 單位:1.OPPO研究院, 2.香港科技大學(xué)(廣州)

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-09 08:40:00

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2025-02-08 13:30:00

2021-02-01 09:51:35

IBM中國研究院

2020-12-17 18:33:07

IBM計算內(nèi)存架構(gòu)人工智能

2023-05-30 10:23:45

模型研究

2025-04-02 09:50:00

機器人訓(xùn)練數(shù)據(jù)

2022-04-22 11:22:47

達摩院阿里巴巴

2024-08-08 13:04:28

2020-10-19 10:08:03

微軟斜屏技術(shù)

2016-06-12 09:31:28

華為

2011-03-11 13:22:16

2015-06-08 13:36:49

2025-05-21 08:47:00

2014-06-19 13:49:41

微軟加密庫JavaScript加

2010-12-21 18:24:26

2010-07-21 10:57:25

歐特克中國研究院

2025-03-19 09:30:00

點贊
收藏

51CTO技術(shù)棧公眾號