教多模態(tài)大模型學(xué)會(huì)“反思”和“復(fù)盤”,上交&上海AI Lab重磅發(fā)布MM-HELIX&AHPO,破解多模態(tài)復(fù)雜推理難題
多模態(tài)大模型表現(xiàn)越來越驚艷,但人們也時(shí)常困于它的“耿直”。
無論是生成代碼、分析圖表還是回答問題,諸多多模態(tài)大模型(MLLM)都傾向于給出一個(gè)“一步到位”的答案。它們就像一個(gè)從不檢查作業(yè)的“學(xué)霸”,雖然知識(shí)淵博,但一旦在復(fù)雜的、需要反復(fù)試錯(cuò)的問題上走錯(cuò)一步,就很難回頭。這種能力的缺失,正是阻礙AI從“知識(shí)容器”邁向“問題解決大師”的關(guān)鍵瓶頸。
現(xiàn)在,來自上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì),帶來了新的解決方案——MM-HELIX。
MM-HELIX不僅是一個(gè)項(xiàng)目,更是一個(gè)完整的生態(tài)體系,旨在賦予AI一種最接近人類智慧的能力:長鏈反思性推理(long-chain reflective reasoning)。
△多種多模態(tài)反思任務(wù)
第一擊:一把“終極標(biāo)尺”——MM-HELIX基準(zhǔn)測試
我們無法提升我們無法衡量的東西。為了精準(zhǔn)評估AI的反思推理能力,團(tuán)隊(duì)首先構(gòu)建了一個(gè)前所未有的“終極考場”——MM-HELIX Benchmark。
它不再是簡單的看圖說話或數(shù)學(xué)計(jì)算,而是包含了42種橫跨算法、圖論、謎題和策略游戲的超高難度任務(wù),例如:
- 邏輯的迷宮:在“掃雷”中根據(jù)數(shù)字線索進(jìn)行縝密推理與回溯。
- 策略的博弈:在“推箱子”中規(guī)劃長遠(yuǎn),避免一步走錯(cuò),滿盤皆輸。
- 算法的具象:尋找圖中的“哈密頓路徑”,需要在腦海中進(jìn)行多次路徑規(guī)劃與剪枝。
團(tuán)隊(duì)搭建了42個(gè)任務(wù)的Sandbox,包含Generator,Solver,Validator等多個(gè)關(guān)鍵部件,并根據(jù)題目復(fù)雜度區(qū)分了五層難度,并最終收集了1260道題目,對當(dāng)前的多模態(tài)大模型進(jìn)行了細(xì)粒度的評估,評估結(jié)果如下:
△MM-HELIX評估結(jié)果
測試結(jié)果令人震驚:即便是當(dāng)前最頂尖的閉源和開源模型,在這份考卷上也紛紛“折戟”,準(zhǔn)確率慘淡,僅有GPT5超過了50分;不具有反思能力的模型更是只有10分左右的準(zhǔn)確率。與此同時(shí),模型在面對多模態(tài)輸入時(shí),準(zhǔn)確率相比于純文本輸入有大幅的下降。這有力地證明了,教會(huì)多模態(tài)大模型反思,刻不容緩!
第二擊:一本“傳世秘籍”——MM-HELIX-100K數(shù)據(jù)集
如何教會(huì)多模態(tài)大模型“三思而后行”?你需要一本好的教科書。
為此,團(tuán)隊(duì)采用“步驟啟發(fā)式響應(yīng)生成”(Step-Elicited Response Generation, SERG)流程,基于MM-HELIX Sandbox數(shù)據(jù)引擎,通過給模型提供解題的關(guān)鍵步驟(key step)來生成解題過程,不僅相比直接讓模型解題(rollout)推理時(shí)間減少了90%,同時(shí)還大幅降低了解題過程中過度反思帶來的冗余度,高效高質(zhì)地生成了多模態(tài)反思性思維鏈。
基于SERG流水線,作者團(tuán)隊(duì)打造了MM-HELIX-100K,一個(gè)包含10萬個(gè)高質(zhì)量樣本的“反思推理秘籍”。這種充滿“自我糾錯(cuò)”和“靈光一閃”的數(shù)據(jù),是教會(huì)多模態(tài)學(xué)會(huì)反思與復(fù)盤的完美養(yǎng)料。
第三擊:一位“智慧導(dǎo)師”——AHPO自適應(yīng)混合策略優(yōu)化算法
△ AHPO算法示意圖
有了“考場”和“秘籍”,還需要一位懂得因材施教的“導(dǎo)師”。
直接微調(diào)方法(SFT)容易導(dǎo)致模型在通用能力上“災(zāi)難性遺忘”,而On-policy強(qiáng)化學(xué)習(xí)則因任務(wù)難度過高,獎(jiǎng)勵(lì)稀疏而“學(xué)不會(huì)”。
為此,團(tuán)隊(duì)提出了創(chuàng)新的自適應(yīng)混合策略優(yōu)化算法(Adaptive Hybrid Policy Optimization, AHPO)。
AHPO算法的智慧之處在于它的“動(dòng)態(tài)教學(xué)”:
- 當(dāng)模型是“新手”時(shí):在復(fù)雜任務(wù)上屢屢碰壁,獎(jiǎng)勵(lì)稀疏,AHPO會(huì)引入“專家數(shù)據(jù)”進(jìn)行強(qiáng)力指導(dǎo),相當(dāng)于手把手教學(xué),幫模型快速入門。
- 當(dāng)模型變“熟練”后:成功率提高,獎(jiǎng)勵(lì)密集,AHPO會(huì)逐漸“放手”,減少專家干預(yù),鼓勵(lì)模型自由探索,發(fā)現(xiàn)比標(biāo)準(zhǔn)答案更優(yōu)、更巧妙的解法。
這種“扶上馬、送一程、再放手”的自適應(yīng)機(jī)制,完美解決了學(xué)習(xí)過程中的兩難問題,讓模型既能學(xué)到專家的智慧,又能發(fā)展出自己的獨(dú)立思考能力。
△實(shí)驗(yàn)結(jié)果
不僅精通難題,更能舉一反三
搭載了MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型,實(shí)現(xiàn)了驚人的蛻變:
- 在MM-HELIX基準(zhǔn)測試上,準(zhǔn)確率飆升+18.6%,一舉超越了體量遠(yuǎn)大于自身的SOTA模型。
- 更令人振奮的是,這種反思能力展現(xiàn)出了強(qiáng)大的泛化性!在多個(gè)通用的數(shù)學(xué)和邏輯推理任務(wù)上,模型平均性能提升了+5.7%。
這證明,MM-HELIX教會(huì)模型的不是如何“背題”,而是真正掌握了“反思”這一可遷移的元能力。
MM-HELIX Benchmark,MM-HELIX 100k,MM-HELIX Sandbox Environment目前均已開源。
項(xiàng)目主頁: https://mm-helix.github.io/








































