偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

_{<del id="fn5uz"></del>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)

發(fā)布于 2025-3-10 10:25

瀏覽

0收藏

Code：??https://github.com/ModalMinds/MM-EUREKA???

Model：??https://huggingface.co/FanqingM/MM-Eureka-Zero-38B ???

??https://huggingface.co/FanqingM/MM-Eureka-8B??Dataset：

??https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset??

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

Why We DO？

目前的研究大多未能在多模態(tài)環(huán)境中復現(xiàn)DeepSeek-R1的關鍵特性，如回答長度的穩(wěn)定增長和準確率獎勵。例如，R1-V僅在簡單計數(shù)任務上有所改進，但未能復現(xiàn)回答長度增長和"頓悟時刻"；R1-Multimodal-Journey探索了幾何問題，但隨著訓練進行，回答長度反而下降；LMM-R1雖然在準確率獎勵和回答長度方面取得了進步，但這種成功尚未在大規(guī)模圖文數(shù)據訓練中得到驗證。雖然Kimi1.5在多模態(tài)推理中取得了有競爭力的結果，但它并未向社區(qū)開源其模型或訓練數(shù)據。

What We do？

開源框架：我們基于OpenRLHF構建了一個可擴展的多模態(tài)大規(guī)模強化學習框架，支持包括InternVL在內的多種模型和多種RL算法。與R1-V等框架相比，我們的框架具有更強的可擴展性，成功訓練了InternVL2.5-38B等大型模型

穩(wěn)定的訓練：MM-Eureka-8B基于InternVL2.5-Instruct-8B開發(fā)，MM-Eureka-Zero-38B基于InternVL2.5-Pretrained-38B開發(fā)。兩者均可以復現(xiàn)出穩(wěn)定的accuracy reward以及response length增長，并且具備visual aha-moment！

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

驚人的數(shù)據效率：僅使用54K圖文數(shù)據進行規(guī)則型RL訓練，平均性能超過使用1M數(shù)據的MPO模型；整體基準準確率與使用12M數(shù)據進行CoT SFT訓練的模型相當！ MM-Eureka-Zero僅使用8K圖文數(shù)學推理數(shù)據（僅為指令模型的0.05%），在我們自己構建的K12基準測試上比指令模型高出8.2%，在MathVerse上表現(xiàn)相當

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What is Important？

極簡的RL設計足以獲得很好的效果，如果是在instruct model上進行實驗，添加KL散度往往會限制模型的探索，導致無法觀測到response length的提高。

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

基于難度的數(shù)據過濾策略對于RL訓練穩(wěn)定性及其重要，我們發(fā)現(xiàn)在8B-instruct模型上訓練，如果不進行數(shù)據過濾，RL的訓練將會非常不穩(wěn)定。

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What We Find？

模型在RL訓練的過程中同樣會展示出類似DeepSeek-R1的aha-moment。特別得是：除了展示出反思和回溯操作，模型還學會了重新審視圖像中的關鍵信息，我們認為這個是visual aha moment的關鍵特征

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What We Wanna Do？

我們在復現(xiàn)過程中進行了許多其他的嘗試，再次我們分享一些我們認為有幫助，但是并沒有work的操作，我們認為這并不代表這些有問題，而是需要進一步地探索。

Curriculum Learning：

得益于我們基于難度劃分數(shù)據，每個數(shù)據都有難度標簽，自然的我們把數(shù)據按難度從低到高進行RL訓練，然而我們發(fā)現(xiàn)這并不能使得性能獲得收益。我們認為這是因為模型在簡單題目上的學習難以直接泛化到難題，如何進行curriculum learning的數(shù)據組織仍然重要。

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

Online Data Filter：

我們將我們預先基于難度的數(shù)據篩選策略記為Offline Data Filter。這種方案雖然可以幫助RL進行穩(wěn)定訓練，但是其數(shù)據利用率降低了，所以我們希望在模型訓練的過程中動態(tài)進行基于難度的數(shù)據篩選（類似PRIME）。但是我們發(fā)現(xiàn)訓練結果并不如offline data filter穩(wěn)定，我們認為這是因為每次更新時候的數(shù)據量不同，導致梯度不穩(wěn)定。

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

Model Size：

盡管目前一些工作比如ORZ，SimpleRL在7B level的LLM上也復現(xiàn)了R1的表現(xiàn)，但是我們在多模態(tài)推理場景下，難以通過8B的internvl pretrained進行成功復現(xiàn)。我們認為這受制于多模態(tài)推理數(shù)據質量以及多模態(tài)預訓練數(shù)據中很少存在long cot數(shù)據。

視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What We Hope？

我們開源了全套數(shù)據（包括我們自助收集的多模態(tài)K12數(shù)據集），代碼，以及模型等。除此之外我們推出一個詳細的技術報告（在我們的repo中），包括我們所有的復現(xiàn)程序以及一些未成功的嘗試。我們希望這可以幫助社區(qū)共同推理多模態(tài)推理發(fā)展。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/5c3q3Z9coOdC_L1t7Nw6wQ??

標簽

已于2025-3-10 10:48:49修改

贊

收藏

回復

舉報

回復

相關推薦

擴散模型如何幫助創(chuàng)建更好的強化學習系統(tǒng)

51CTO內容精選 ? 2949瀏覽 ? 0回復
Nature：最大擴散強化學習

ceesoft ? 4126瀏覽 ? 0回復
谷歌提出大規(guī)模ICL方法——強化和無監(jiān)督

Aceryt ? 2669瀏覽 ? 0回復
ICML 2024：從視覺語言基礎模型反饋中進行強化學習

AIGC最前線 ? 4223瀏覽 ? 0回復
多模態(tài)模型學會打撲克：表現(xiàn)超越GPT-4v，全新強化學習框架是關鍵

Crystalcxt ? 3092瀏覽 ? 0回復
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應用場景

AI探索時代 ? 3316瀏覽 ? 0回復
入口控制：多智能體強化學習在自動駕駛中的應用研究

xuxiangda ? 3876瀏覽 ? 0回復
預測未來模型能力！微調揭示LLM涌現(xiàn)能力的關鍵

AIGC最前線 ? 2382瀏覽 ? 0回復
為啥強化學習開始成為了大語言模型（LLM）的新寵？

智駐未來 ? 2979瀏覽 ? 0回復
基于多模態(tài)深度強化學習的投資組合優(yōu)化

靈度智能 ? 3306瀏覽 ? 0回復
用強化學習重塑多模態(tài)AI：解讀Kimi k1.5的突破與創(chuàng)新

Halo咯咯 ? 2922瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4908瀏覽 ? 0回復
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 2561瀏覽 ? 0回復
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 2193瀏覽 ? 0回復
Search-R1：強化學習增強大語言模型推理+搜索能力

十一月雨_55 ? 2546瀏覽 ? 0回復
強化學習強在哪里？基礎探索

柏企閱文 ? 1607瀏覽 ? 0回復
ReSearch: 突破性強化學習框架實現(xiàn)大模型推理搜索能力無縫整合

頓數(shù)AI ? 5938瀏覽 ? 0回復
MMIE：用于大型視覺語言模型的大規(guī)模多模態(tài)交錯理解基準（ICLR 2025）

AIRoobt ? 610瀏覽 ? 0回復
GRPO訓練布局感知的強化學習多模態(tài)文檔解析框架-Infinity-Parser

大模型自然語言處理 ? 637瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

多領域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

我把DeepSeek微調參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復

上一篇： CVPR 2025 | 低層交互破局！GIFNet實現(xiàn)多模態(tài)融合通用模型，單一框架橫掃多任務場景

下一篇： CVPR 2025 | 數(shù)據荒漠終結者！DoraCycle跨模態(tài)自循環(huán)算法：讓生成不再依賴配對數(shù)據

社區(qū)精華內容

目錄

<ruby id="b6a8c"></ruby>