偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

業(yè)界突破多模態(tài)泛化推理能力，OPPO研究院&港科廣提出OThink-MR1技術(shù)

作者：量子位 2025-03-31 09:22:00

人工智能新聞

來自O(shè)PPO研究院和港科廣的科研人員提出了一項(xiàng)新技術(shù)——OThink-MR1，將強(qiáng)化學(xué)習(xí)擴(kuò)展到多模態(tài)語言模型，幫助其更好地應(yīng)對各種復(fù)雜任務(wù)和新場景。

用上動(dòng)態(tài)強(qiáng)化學(xué)習(xí)，多模態(tài)大模型也能實(shí)現(xiàn)泛化推理了？！

來自O(shè)PPO研究院和港科廣的科研人員提出了一項(xiàng)新技術(shù)——OThink-MR1，將強(qiáng)化學(xué)習(xí)擴(kuò)展到多模態(tài)語言模型，幫助其更好地應(yīng)對各種復(fù)雜任務(wù)和新場景。

研究人員表示，這一技術(shù)使業(yè)界突破多模態(tài)泛化推理能力。

眾所周知，多模態(tài)大模型可以處理多種類型輸入數(shù)據(jù)并生成相關(guān)輸出，但一遇到復(fù)雜推理任務(wù)，其能力往往表現(xiàn)不佳。

目前大多數(shù)多模態(tài)模型在訓(xùn)練時(shí)，主要采用監(jiān)督微調(diào)（SFT）的方法。

SFT就像是老師給學(xué)生劃重點(diǎn)，讓學(xué)生按照固定的模式學(xué)習(xí)。雖然這種方法在特定任務(wù)上確實(shí)能讓模型表現(xiàn)得不錯(cuò)，但難以培養(yǎng)關(guān)鍵的通用推理能力。

與此同時(shí)，強(qiáng)化學(xué)習(xí)（RL）作為另一種訓(xùn)練方法，開始進(jìn)入人們的視野。

RL就像是讓學(xué)生在不斷嘗試中學(xué)習(xí)，做得好就給獎(jiǎng)勵(lì)，做得不好就“挨批評(píng)”。這種方法理論上可以讓模型更靈活地應(yīng)對各種任務(wù)，提升其推理能力，但卻存在多模態(tài)任務(wù)通用能力未充分探索、訓(xùn)練約束易導(dǎo)致次優(yōu)瓶頸等問題。

于是乎，OThink-MR1技術(shù)應(yīng)運(yùn)而生。

那么，它是如何讓多模態(tài)模型突破泛化推理能力的呢？

基于動(dòng)態(tài)強(qiáng)化學(xué)習(xí)

OThink-MR1是一個(gè)基于動(dòng)態(tài)強(qiáng)化學(xué)習(xí)的框架和模型，支持微調(diào)多模態(tài)語言模型。

其核心“招式”有兩個(gè)：一個(gè)是動(dòng)態(tài)KL散度策略（GRPO-D），另一個(gè)是精心設(shè)計(jì)的獎(jiǎng)勵(lì)模型。二者相互配合，讓模型的學(xué)習(xí)效率和推理能力大幅提升。

先說動(dòng)態(tài)KL散度策略。

在強(qiáng)化學(xué)習(xí)里，探索新的策略和利用已有經(jīng)驗(yàn)是兩個(gè)很重要的方面，但以前的方法很難平衡這二者的關(guān)系，不是在探索階段浪費(fèi)太多時(shí)間，就是過早地依賴已有經(jīng)驗(yàn)。

而動(dòng)態(tài)KL散度策略就像是給模型裝了一個(gè)“智能導(dǎo)航儀”，能根據(jù)訓(xùn)練進(jìn)度動(dòng)態(tài)調(diào)整探索和利用的平衡。

打個(gè)比方，在訓(xùn)練初期，它讓模型像個(gè)充滿好奇心的孩子，大膽地去探索各種可能的策略。而隨著訓(xùn)練的進(jìn)行，它又會(huì)引導(dǎo)模型逐漸利用之前積累的經(jīng)驗(yàn)，沿著更靠譜的路線前進(jìn)。

這樣一來，模型就能更有效地學(xué)習(xí)，避免陷入局部最優(yōu)解。

再說獎(jiǎng)勵(lì)模型。在OThink-MR1里，獎(jiǎng)勵(lì)模型就像是老師給學(xué)生打分的標(biāo)準(zhǔn)。

對于多模態(tài)任務(wù)，科研人員設(shè)計(jì)了兩種獎(jiǎng)勵(lì)：一種是驗(yàn)證準(zhǔn)確性獎(jiǎng)勵(lì)，另一種是格式獎(jiǎng)勵(lì)。

比如在視覺計(jì)數(shù)任務(wù)中，模型要數(shù)出圖片里物體的數(shù)量，如果數(shù)對了，就能得到驗(yàn)證準(zhǔn)確性獎(jiǎng)勵(lì)；同時(shí)，如果模型的回答格式符合要求，像按照規(guī)定的格式寫下答案，還能獲得格式獎(jiǎng)勵(lì)。

這兩種獎(jiǎng)勵(lì)加起來，就像老師從多個(gè)方面給學(xué)生打分，讓模型知道自己在哪些地方做得好，哪些地方還需要改進(jìn)，從而更有針對性地學(xué)習(xí)。

實(shí)驗(yàn)環(huán)節(jié)

為了驗(yàn)證OThink-MR1的實(shí)力，科研人員進(jìn)行了一系列實(shí)驗(yàn)。

第一個(gè)實(shí)驗(yàn)是探究獎(jiǎng)勵(lì)項(xiàng)和KL散度項(xiàng)對原始GRPO（一種基于強(qiáng)化學(xué)習(xí)的方法）在同任務(wù)驗(yàn)證中的影響。

在幾何推理任務(wù)中，科研人員調(diào)整格式獎(jiǎng)勵(lì)的權(quán)重，發(fā)現(xiàn)當(dāng)格式獎(jiǎng)勵(lì)的權(quán)重不為零時(shí)，模型的表現(xiàn)明顯更好。這就好比學(xué)生寫作文，不僅內(nèi)容要正確，格式規(guī)范也能加分，這樣能讓學(xué)生更全面地提升自己的能力。

同時(shí)，調(diào)整KL散度的權(quán)重時(shí)，他們發(fā)現(xiàn)權(quán)重適中時(shí)模型表現(xiàn)最佳，太大或太小都會(huì)讓模型成績下降。

第二個(gè)實(shí)驗(yàn)是跨任務(wù)評(píng)估，這可是一場真正的“大考”。

以往的研究大多只在同一個(gè)任務(wù)的不同數(shù)據(jù)分布上評(píng)估模型的泛化能力，而這次實(shí)驗(yàn)直接讓模型挑戰(zhàn)完全不同類型的任務(wù)。

科研人員選擇了視覺計(jì)數(shù)任務(wù)和幾何推理任務(wù)，這兩個(gè)任務(wù)難度不同，對模型的能力要求也不一樣。

在跨任務(wù)驗(yàn)證中，用監(jiān)督微調(diào)訓(xùn)練的模型表現(xiàn)得很差。就像一個(gè)只會(huì)做一種題型的學(xué)生，換了另一種題型就完全不會(huì)了。

而經(jīng)過GRPO-D訓(xùn)練的模型則表現(xiàn)出色，在從推理任務(wù)到理解任務(wù)的泛化實(shí)驗(yàn)中，它的成績相比沒有經(jīng)過訓(xùn)練的模型提高了很多；在從理解任務(wù)到推理任務(wù)的泛化實(shí)驗(yàn)中，雖然難度更大，但它也取得了不錯(cuò)的進(jìn)步。

這就好比一個(gè)學(xué)生不僅擅長數(shù)學(xué)，還能快速掌握語文知識(shí)，展現(xiàn)出了很強(qiáng)的學(xué)習(xí)能力。

第三個(gè)實(shí)驗(yàn)是同任務(wù)評(píng)估。

實(shí)驗(yàn)結(jié)果顯示，在同任務(wù)驗(yàn)證中，采用固定KL散度的GRPO方法不如監(jiān)督微調(diào)，但OThink-MR1中的GRPO-D卻能逆襲。

它在視覺計(jì)數(shù)和幾何推理任務(wù)上，成績都超過了監(jiān)督微調(diào)，這就像一個(gè)原本成績一般的學(xué)生，找到了適合自己的學(xué)習(xí)方法后，成績突飛猛進(jìn)，直接超過了那些只會(huì)死記硬背的同學(xué)。

總體而言，OThink-MR1的出現(xiàn)，為多模態(tài)語言模型的發(fā)展開辟了新的道路。

它讓我們看到了動(dòng)態(tài)強(qiáng)化學(xué)習(xí)在提升模型推理能力和泛化能力方面的巨大潛力。在未來，基于OThink-MR1這樣的技術(shù)，多模態(tài)語言模型有望在更多領(lǐng)域發(fā)揮重要作用。

論文地址：https://arxiv.org/abs/2503.16081

? 標(biāo)題：OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

? 作者：劉志遠(yuǎn)1, 章玉婷2, 劉豐1, 張長旺1, 孫瑩2, 王俊1

? 單位：1.OPPO研究院, 2.香港科技大學(xué)（廣州）

責(zé)任編輯：張燕妮來源：量子位

強(qiáng)化學(xué)習(xí)模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tfoot id="ymlvx"></tfoot><abbr id="ymlvx"><fieldset id="ymlvx"><thead id="ymlvx"></thead></fieldset></abbr>

<abbr id="ymlvx"></abbr>

^{<p id="ymlvx"></p>}