超越英偉達Describe Anything!中科院 & 字節(jié)聯(lián)合提出「GAR」,為DeepSeek-OCR添磚加瓦
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通過模型的OCR能力,用圖片壓縮文檔。
那么自然圖像是否也能作為文本的壓縮呢?中科院&字節(jié)聯(lián)合提出的「Grasp Any Region」提供了新思路。

團隊認為,他們的最新工作Grasp Any Region (GAR)所實現(xiàn)的精準region captioning能力,為構(gòu)建自然圖像的Dense Caption,提供了潛在的可能路徑之一。
具體而言,GAR具備三種能力:
1、精準描述用戶指定的 region。
2、建模多個 region 之間的關(guān)系。
3、進行復雜的組合推理(例如圖片所示的非實體判別)。

△圖 1:GAR的能力
下面來具體看看。
局部細節(jié)與全局信息的trade-off
首先,什么是Region MLLMs?
與傳統(tǒng)MLLMs不同,Region MLLMs旨在對圖片/視頻內(nèi)容進行細粒度、可交互式的理解。
具體來說,用戶可以提供各種各樣的visual prompts (regions)以及user instructions,模型需要基于此,對特定region進行準確理解。
例如,“請描述這個區(qū)域”,或“區(qū)域1和區(qū)域2之間是什么關(guān)系”,甚至判斷“區(qū)域1和區(qū)域2是否在鏡子當中”。
其次,為什么要研究Region MLLMs?
DeepSeek-OCR的本質(zhì)是依賴多模態(tài)大模型對圖片進行精準caption的能力,也初步探索了基于自然圖片的全圖caption進行信息壓縮的道路。
然而,全圖的caption往往難以評測。
Region Caption就不一樣了,對于用戶指定的Region,很容易就可以從色彩、紋理、形狀、材質(zhì)等基礎方面,客觀地對模型的caption進行評測,正如英偉達Describe-Anything所做的DLC-Bench那樣。
如果一個模型有了精準的region caption能力,那么就可以結(jié)合SAM,將精準的region captions其merge成一個詳細且準確的全圖caption,進一步實現(xiàn)了信息的壓縮。
更重要的是,這部分detailed caption不僅能惠及 MLLM 的預訓練,也能輔助生成模型理解復雜的用戶指令。
此外,Region caption本身也能作為AIGC中的編輯模型和場景生成模型的重要數(shù)據(jù)來源。
多年以來,Region MLLMs一直夾在局部細節(jié)與全局信息之間的兩難困境。
浙江大學研究員所提出的Osprey通過masked pooling獲得局部特征,導致局部細節(jié)丟失;而英偉達所提出的DAM(Describe Anything Model)額外輸入一張裁切后的子圖,導致全局信息丟失。

△圖 2:GAR-1B與DAM-3B針對同一區(qū)域描述的對比
比如,上面這個例子展示了DAM全局信息丟失的現(xiàn)象。用戶指定的區(qū)域明明是一個青蛙樣式的拖鞋,但是DAM會錯誤識別為青蛙。
有圖有真相
相比之下,GAR能夠?qū)τ脩糁付▍^(qū)域?qū)崿F(xiàn)精確的理解,產(chǎn)出更準確的描述。
例如,GAR能夠正確識別并描述物體,而DAM均出現(xiàn)了錯誤識別。

并且GAR能夠針對極小物體,進行精準識別。

還能夠針對極小物體進行精準識別。

進而,它能利用極小的圖像細節(jié),正確建模物體之間的關(guān)系。
特別是下圖右側(cè)這個例子,OpenAI-o3和Gemini-2.5-Pro都誤認為人在看書。
然而,實際上人的眼睛正在看鏡頭,她僅僅是拿著書,而并非在看書。這凸顯出GAR模型對于細節(jié)理解能力之強。

GAR還能夠進行復雜的組合推理,例如綜合判斷多個 prompt 是否在鏡子當中。

此外,GAR能夠很好的遷移至視頻描述中,對視頻中的appearence描述十分準確。

同時,在視頻理解任務中,GAR能夠精準地識別視頻中的物體、人物與動作,進行語義層次的深度分析。

還能夠?qū)σ曨l中的單個區(qū)域進行精準的理解,甚至還能識別motion信息(如下面右圖的例子)。

哇哦,這么強勁的表現(xiàn),究竟是怎么做到的?
細粒度+全局上下文
具體而言,團隊在設計GAR模型時,遵循了「既要實現(xiàn)對提示區(qū)域的細粒度理解,同時又要保留并利用整個場景的全局上下文」的核心原則。
如下圖所示,團隊在傳統(tǒng)MLLM架構(gòu)中引入兩個全新組件:
1、簡潔高效的prompt encoding方案;
2、創(chuàng)新性的區(qū)域?qū)R(RoI-aligned)特征回放技術(shù)。

△圖3:GAR方法示意圖
GAR通過視覺編碼器對整個場景生成全局特征圖,從而完整保留全局上下文信息。
同時,RoI-Aligned Feature Replay機制,能夠為特定目標對象提取高保真度特征。
最終,全局上下文特征與精細化局部特征將共同輸入LLM,以精準推理多個對象間的復雜關(guān)聯(lián)與交互關(guān)系。
具體下面來看。
為將空間引導信息融入視覺骨干網(wǎng)絡,團隊引入了一套輕量級提示編碼機制。
首先,用戶指定的二值掩碼,經(jīng)一個簡單的從零初始化的卷積塊處理后生成mask embedding;
隨后,將其與ViT的patch embedding相加,完成空間信息與視覺特征的融合。
為同時提供充足的局部細節(jié)與必要的全局上下文,團隊提出區(qū)域?qū)R(RoI-aligned)特征回放技術(shù)。
具體而言,模型通過切圖的方式處理完整、未裁剪的圖像(包含了mask prompt),生成全局特征圖,這類特征富含上下文信息。
接著,根據(jù)輸入mask為感興趣區(qū)域生成對應bbox,并采用RoI-Align技術(shù),直接從全局特征圖中提取該區(qū)域的相關(guān)特征,如圖3右側(cè)所示。
由于這些特征本質(zhì)上源自“基于整幅圖像計算的特征圖”,因此天生具備上下文感知能力。
同時,回放后的特征能為后續(xù)語言模型提供用戶指定區(qū)域的“高細節(jié)、高分辨率”的特征表示,助力其實現(xiàn)細粒度理解。
這種“富含上下文特征的重放”機制,讓GAR既能“聚焦細節(jié)”,又不“忽視全局”。
實驗證明,該設計可同時實現(xiàn)兩大目標
1、提供充足局部細節(jié)。
2、保留全局上下文。

△圖4:GAR的數(shù)據(jù)管線
為提升模型“單區(qū)域基礎目標識別”的能力,進而支持“多區(qū)域復雜關(guān)聯(lián)推理”,團隊設計了多階段流程以生成大規(guī)模、高質(zhì)量數(shù)據(jù)集,具體如圖4所示。
具體而言,首先以種子數(shù)據(jù)集訓練種子描述生成模型,基于此模型在ImageNet-21K這一細粒度圖像分類數(shù)據(jù)集上推理,根據(jù)類別名稱進行過濾,構(gòu)建45.6萬條細粒度描述數(shù)據(jù);
隨后結(jié)合上述兩類數(shù)據(jù)集訓練細粒度描述生成模型,并借助Panoptic Scene Graph數(shù)據(jù)集的標注信息,生成足量的關(guān)聯(lián)感知型描述及問答對。
最終,團隊使用這三部分數(shù)據(jù)對GAR模型進行訓練。
階段1:提升識別能力。
初始階段,團隊以Describe Anything-1.5M數(shù)據(jù)集為基礎。
但團隊發(fā)現(xiàn),該數(shù)據(jù)集訓練出來的模型(Seed-Captioner)在細粒度識別能力上存在不足:模型常常出現(xiàn)錯誤的物體識別,這限制了其在更復雜場景下生成描述的質(zhì)量。
為解決這一問題,團隊巧妙地引入ImageNet-21K數(shù)據(jù),因其ImageNet-21K是極具代表性的細粒度分類數(shù)據(jù)集,以類別標簽的詳盡性與覆蓋廣度著稱。
團隊先通過Seed-Captioner生成初始region caption,再利用LLM將生成的描述與真實類別標簽進行驗證,最終得到含456K樣本的精細化細粒度數(shù)據(jù)集。
隨后,團隊結(jié)合上述兩類數(shù)據(jù)集,訓練細粒度描述生成模型(Fine-Grained-Captioner)。
階段2:支持多區(qū)域關(guān)聯(lián)推理。
為進一步實現(xiàn)對多區(qū)域的關(guān)聯(lián)理解與推理,團隊引入了Panoptic Scene Graph (PSG)數(shù)據(jù)集。
具體步驟如下:
首先,調(diào)用Fine-Grained-Captioner為每個區(qū)域生成詳細描述;
接著,將Qwen2.5-72B作為“LLM 融合器(LLM-Merger)”,結(jié)合PSG數(shù)據(jù)集提供的原始標注信息,生成三類數(shù)據(jù):
1、144K條明確融入關(guān)聯(lián)上下文的豐富目標描述;
2、144K組用于考察復雜關(guān)聯(lián)理解能力的問答對;
3、126K道選擇題。本階段最終構(gòu)建出含414K樣本的關(guān)聯(lián)數(shù)據(jù)集。

△圖5:GAR-Bench的統(tǒng)計信息。
最后,本文引入GAR-Bench。
這是一套綜合性基準測試套件,旨在系統(tǒng)性評估多模態(tài)大語言模型(MLLMs)的區(qū)域級理解能力,包括單區(qū)域理解以及多區(qū)域理解。
該測試集的構(gòu)建遵循三大核心設計思路:
1、在任務設置上,略微側(cè)重推理能力而非感知能力;
2、通過多 visual prompts 設計提升問題難度,例如部分問題的提示詞數(shù)量甚至達到 7 個與 9 個;
3、控制單個提示詞對應的區(qū)域面積,使其占比極小,平均僅為 4.4%。
該測試集具體分為兩大核心組件:多提示詞描述任務(GAR-Bench-Cap)與多維度視覺問答任務(GAR-Bench-VQA)。
其中,GAR-Bench-Cap用于評估模型的敘事整合能力——即能否以連貫的表述,描述多個visual prompt之間的復雜關(guān)聯(lián)與交互關(guān)系。
GAR-Bench-VQA則進一步將模型理解能力拆解為兩個關(guān)鍵維度:
1、針對給定提示詞的基礎屬性感知能力;
2、以區(qū)域為核心的高階組合推理能力,要求模型整合提示詞及其周邊上下文的信息進行推理。
例如,識別某個物體在全局中的排列位置(第幾行第幾列),以及判斷某個物體是否為實體。
直逼最強推理模型
再來看看數(shù)據(jù)表現(xiàn)如何。

△表1:GAR-Bench-VQA的結(jié)果
團隊首先衡量GAR的高階理解能力,它要求精準建模多個提示詞之間的復雜關(guān)聯(lián)。
為評估該能力,團隊在GAR-Bench-VQA測試集上開展了全面對比實驗。
如表1所示,GAR-8B模型取得了59.9分的優(yōu)異綜合成績,其表現(xiàn)甚至超過了性能強勁的私有先進非推理模型GPT-4o,直逼最強推理模型o3和Gemini-2.5-Pro!
此外,GAR-1B模型的表現(xiàn)凸顯了團隊方法在效率與效果上的優(yōu)勢。
盡管該模型參數(shù)量遠小于其他對比模型,但其綜合得分為50.6分,性能超過了InternVL3-78B等大規(guī)模公開模型。
這一優(yōu)勢在細粒度感知任務中尤為明顯:GAR-1B與GAR-8B在“紋理(Texture)”維度的得分分別達到69.0分和75.9分,顯著超越其他模型。
進一步地,團隊專注于衡量GAR生成caption的準確性。團隊在一系列高難度數(shù)據(jù)集上對GAR模型進行基準測試,結(jié)果持續(xù)證明其具備當前最先進的性能。

△表2&3:GAR-Bench-Cap以及DLC-Bench的結(jié)果
如表2所示,在GAR-Bench-Cap測試集上,GAR-1B與GAR-8B分別取得57.5分和62.2分的最高綜合成績,表現(xiàn)甚至超過Gemini-2.5-Pro等性能強勁的私有模型。
表3中DLC-Bench的測試結(jié)果進一步驗證了這一優(yōu)勢:無論以LLaMA3.1還是GPT-4o作為評判模型,GAR-1B與GAR-8B的性能均優(yōu)于DAM-3B,成為新的SOTA。

△表4:Ferret-Bench與MDVP-Bench上的結(jié)果
如表4所示,GAR模型在Ferret-Bench與MDVP-Bench上的零樣本表現(xiàn)尤為值得關(guān)注。
在這兩個測試集的所有細分類別中,GAR模型均位列第一。其中在MDVP-Bench測試集上,GAR模型的領先優(yōu)勢更為顯著:GAR-8B在自然圖像任務中取得178.6分,該成績大幅超過所有競品模型。
綜上,通過在多個基準測試集上的全面評估可明確證明:在生成豐富、準確且細節(jié)化的局部描述任務中,GAR模型已成為新的當前最先進方案。

△表6&7:零樣本遷移至視頻
甚至,團隊驚喜地發(fā)現(xiàn),GAR的能力可以zero-shot遷移至video。團隊直接將GAR模型擴展至視頻任務,并分別在VideoRefer-Bench-D與VideoRefer-Bench-Q測試集上進行評估,結(jié)果如表6、表7所示。
在zero-shot的設置下,GAR-8B模型性能超過DAM-8B。更重要的是,如表7所示,zero-shot的GAR-8B甚至優(yōu)于in-domain訓練的VideoRefer-7B模型!這表明其強大的理解能力可輕松遷移至視頻任務。
不過,由于GAR模型實際僅使用圖像數(shù)據(jù)訓練,因此在與時間相關(guān)的任務上得分偏低。例如表6中的TD與表7中的Future Prediction,均體現(xiàn)出這一局限。
團隊相信,GAR將推動MLLM真正理解稠密的視覺世界,也為信息壓縮提供了新的視角與可能。
最后,同時,團隊認為,GAR可以作為一個很好的Data-engine的工具使用。
例如——
1、訓練一個多模態(tài)理解模型時,往往需要精細的圖像/視頻描述作為預訓練,試試GAR吧。
2、練一個文生圖或文生視頻模型時,往往需要精細的描述以提升模型對于復雜文本的指令遵循能力,試試GAR吧。
3、訓練一個細粒度的編輯模型時,往往缺乏針對待編輯區(qū)域的精準描述,也試試GAR吧~
此外,GAR可以天然作為一個Reward Model,作為多模態(tài)理解任務的中post-training階段使用,提供準確的區(qū)域理解獎勵信號!
而且,團隊的論文、代碼、和模型全部開源了,并且支持了基于gradio的本地部署。
下面是gradio demo的使用姿勢,用戶只需要通過點擊鼠標,GAR就會根據(jù)SAM生成的mask,對指定區(qū)域進行十分細節(jié)的描述,歡迎大家試用~

論文:https://huggingface.co/papers/2510.18876
GitHub:https://github.com/Haochen-Wang409/Grasp-Any-Region
抱抱臉:https://huggingface.co/collections/HaochenWang/grasp-any-region
https://huggingface.co/spaces/jbilcke-hf/SNIPED_grasp-any-region


























