20個(gè)樣本,搞定多模態(tài)思維鏈!UCSC重磅開源:邊畫框,邊思考
現(xiàn)有開源多模態(tài)推理模型(Multimodal Reasoning Model)生成的推理鏈幾乎都是純自然語言,缺少對圖像信息的顯式引用與整合。

讓多模態(tài)大語言模型(MLLM)既能條理清晰的思考,又能真正將推理過程「落到畫面」上,在實(shí)現(xiàn)上仍然存在兩個(gè)難點(diǎn):
1. 全是自然語言的思考內(nèi)容看似很長,其內(nèi)容有可能脫離圖像信息,不一定能真正「看圖說話」;
2. 教會模型新的看圖思考方式動(dòng)輒要成千上萬條有標(biāo)注的數(shù)據(jù),門檻極高。
針對此問題,加州大學(xué)圣克魯斯分校的研究人員提出了GRIT (Grounded Reasoning with Images & Texts) 模型,具有高關(guān)聯(lián)和輕量級的特性。

論文地址:https://arxiv.org/abs/2505.15879
代碼鏈接:https://github.com/eric-ai-lab/GRIT
在線Demo:https://grounded-reasoning.github.io/
· 高關(guān)聯(lián)
模型可以在思考鏈里隨時(shí)插入框坐標(biāo),實(shí)現(xiàn)真正的 「圖像思維」(Thinking with Images)。
GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接織進(jìn)思考鏈,實(shí)現(xiàn)「思路和證據(jù)同步」,所想即所見。
· 輕量級
其訓(xùn)練方法GRPO-GR具備三重獎(jiǎng)勵(lì)(答案、格式、框),實(shí)現(xiàn)零人工標(biāo)注,僅用20張圖像與問答的訓(xùn)練數(shù)據(jù)就能教會模型畫框+推理。
GRIT二板斧
Grounded Reasoning

Grounded Reasoning范式建立在多模態(tài)大語言模型已具備的兩項(xiàng)原生能力——視覺定位 (grounding) 與語言推理 (reasoning)——之上,目標(biāo)是把二者深度融合:
讓模型在「想」(生成推理鏈)的同時(shí)「指」(輸出精準(zhǔn)框坐標(biāo)),從而讓「慢思考」不再停留在純自然語言,而是真正做到 「所見即所想,所想即所指」。
給模型一張圖和問題 ,會一次性返回兩段式結(jié)果 (c, a):
- 推理鏈c—以
<think>開頭,模型邊寫自然語言,邊在需要時(shí)插入[x1,y1,x2,y2]形式的框坐標(biāo),之后<rethink>引導(dǎo)的重思考將進(jìn)一步整合框坐標(biāo)對應(yīng)的圖像信息; - 最終答案a—在
<answer>標(biāo)簽后給出答案。
在c的生成過程中,模型每一步都可以自由決定是繼續(xù)寫文字還是生成一個(gè)框坐標(biāo)。
輸出框坐標(biāo)后,模型不會再回讀對應(yīng)像素,而是繼續(xù)token輸出,要求模型理解并利用框坐標(biāo)信息,融入后續(xù)推理,就像模型給自己出了一道Referring Expression Generation(REC)任務(wù)一樣。
Grounded Reasoning范式通過只傳遞數(shù)字坐標(biāo),避免了裁剪圖像或多輪回輸信息的計(jì)算開銷,流程輕量。
在此范式之下模型的輸出里的框坐標(biāo)可以直接畫出,成為其推理的「看圖」依據(jù),讀者既能讀到它的思考,也能順著坐標(biāo)直接驗(yàn)證圖中證據(jù)。
GRPO-GR訓(xùn)練
為了讓模型在極小的數(shù)據(jù)量下就學(xué)會畫框來輔助推理,GRIT 采用了專門的強(qiáng)化學(xué)習(xí)方法GRPO-GR
它在GRPO的基礎(chǔ)上,引入三個(gè)獎(jiǎng)勵(lì)信號來直接驅(qū)動(dòng)策略 π_θ 生成符合 grounded reasoning 范式的序列。
格式獎(jiǎng)勵(lì) (r_format)信號檢查模型輸出的整體結(jié)構(gòu)是否合規(guī):
- 是否正確使用
<think>、<answer>等特殊標(biāo)記; - 插入的邊界框
[x1,y1,x2,y2]語法是否有效、坐標(biāo)是否在合法區(qū)間內(nèi)。 通過懲罰任何格式錯(cuò)誤,模型很快學(xué)會在文字與坐標(biāo)之間靈活、規(guī)范地切換。
計(jì)數(shù)獎(jiǎng)勵(lì) (r_count):對于要求回答某物體數(shù)量的問題,計(jì)數(shù)獎(jiǎng)勵(lì)的信號鼓勵(lì)模型的輸出要數(shù)量上符合答案,最好一個(gè)框?qū)?yīng)一個(gè)相關(guān)物體。
r_count對比推理鏈里框的個(gè)數(shù)與真實(shí)答案中的數(shù)量:二者一致即得分,否則扣分;可以讓模型在標(biāo)記目標(biāo)時(shí)兼顧完整性,避免多框、漏框或隨意畫框。
答案正確性獎(jiǎng)勵(lì) (r_ans):最終答案是否答對,由GPT-4o進(jìn)行語義評估并結(jié)合BLEU相似度給分。 這樣的「老師」對自然語言表述具有強(qiáng)魯棒性,避免模型鉆格式空子,也進(jìn)一步降低了人工評判成本。

得益于這三重獎(jiǎng)勵(lì)的協(xié)同作用,GRPO-GR完全不依賴顯式的推理鏈標(biāo)注或框標(biāo)簽——只需提供題目、圖像和最終答案。
在實(shí)踐中,即便訓(xùn)練集只有20條數(shù)據(jù),模型依舊能夠穩(wěn)定學(xué)到「邊框邊想」的行為,并在多項(xiàng)基準(zhǔn)測試上取得亮眼表現(xiàn)。
實(shí)驗(yàn)結(jié)果:20 條樣本即可「看得準(zhǔn)、想得對」
準(zhǔn)確性評測
Qwen-2.5-VL-3B和InternVL-3-2B作為基座模型,只用來自VSR+TallyQA的共20張圖-問題-答案和GRIT方法訓(xùn)練。
在6個(gè)測試集中,用GRIT方法,模型推理結(jié)果的準(zhǔn)確性(ACC)相對于沒有經(jīng)過訓(xùn)練的基線明顯提高。而基線模型表現(xiàn)出割裂的定位與推理能力,他們無法兼顧在定位目標(biāo)物體來畫框上比較準(zhǔn)確的同時(shí)在回答問題上更加正確。

即使GRPO-GR訓(xùn)練中沒有包含任何對畫框的位置的訓(xùn)練信號,測試結(jié)果現(xiàn)實(shí)框的準(zhǔn)確性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。
推理與畫框相互關(guān)聯(lián)
研究人員提出了VL Reasoning Cross-Modal Correlation來衡量推理鏈中的文字與框區(qū)域的對齊程度。

結(jié)果顯示,用GRIT方法的模型輸出的內(nèi)容更好的融合了推理與畫框:框住什么,就談什么。
另外,在用GRIT方法的模型中,把推理鏈里的框坐標(biāo)全部抹掉,再讓模型繼續(xù)生成。
結(jié)果顯示,后續(xù)生成的推理內(nèi)容對圖像的注意力會大幅下降,說明畫出的框能進(jìn)一步促進(jìn)推理。
數(shù)據(jù)規(guī)模效應(yīng)
研究人員進(jìn)一步將訓(xùn)練數(shù)據(jù)擴(kuò)大,20到500,再增長到7000。

結(jié)果表明,隨著數(shù)據(jù)規(guī)模的增加,模型準(zhǔn)確率雖可以進(jìn)一步提高,但跨領(lǐng)域泛化依舊是難點(diǎn)。
即使同類訓(xùn)練數(shù)據(jù)增加,在與訓(xùn)練域差異較大的測試集上模型提升依然有限,提示未來需要更豐富、更異質(zhì)的訓(xùn)練數(shù)據(jù),而不只是「更多同類題」。
即便是極小樣本設(shè)置,GRIT也能讓開源MLLM同時(shí)獲得「畫得準(zhǔn)、講得清」的能力,并且畫框和推理在模型輸出中相輔相成;進(jìn)一步放大數(shù)據(jù)規(guī)模,則帶來漸進(jìn)式收益,并揭示了跨域推理的新挑戰(zhàn)。
































