X-SAM:從「分割一切」到「任意分割」:統(tǒng)一圖像分割多模態(tài)大模型,在20+個圖像分割數(shù)據(jù)集上均達SoTA
本研究由中山大學、鵬城實驗室、美團聯(lián)合完成,第一作者王豪為中山大學博士研究生,主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態(tài)大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。
背景與動機
Segment Anything Model (SAM) 作為基礎(chǔ)分割模型在密集分割掩碼生成方面表現(xiàn)卓越,但其依賴視覺提示的單一輸入模式限制了在廣泛圖像分割任務(wù)中的適用性。多模態(tài)大語言模型(MLLMs)雖在圖像描述、視覺問答等任務(wù)中表現(xiàn)出色,但輸出局限于文本生成,無法直接處理像素級視覺任務(wù),這一根本性限制阻礙了通用化模型的發(fā)展。
中山大學、鵬城實驗室、美團聯(lián)合提出 X-SAM—— 一個統(tǒng)一的圖像分割多模態(tài)大模型,將分割范式從 「分割萬物」擴展到 「任意分割」。X-SAM 引入了統(tǒng)一框架,使 MLLMs 具備高級像素級感知理解能力。研究團隊提出了視覺定位分割(Visual Grounded Segmentation, VGS)新任務(wù),通過交互式視覺提示分割所有實例對象,賦予 MLLMs 視覺定位的像素級理解能力。為支持多樣化數(shù)據(jù)源的有效訓練,X-SAM 采用統(tǒng)一訓練策略,支持跨數(shù)據(jù)集聯(lián)合訓練。實驗結(jié)果顯示,X-SAM 在廣泛的圖像分割基準測試中達到最先進性能,充分展現(xiàn)了其在多模態(tài)像素級視覺理解方面的優(yōu)越性。

- 論文地址:https://arxiv.org/pdf/2508.04655
- 代碼地址:https://github.com/wanghao9610/X-SAM
- Demo地址: http://47.115.200.157:7861
方法設(shè)計
X-SAM 設(shè)計了通用輸入格式和統(tǒng)一輸出表示:
1)文本查詢輸入(Text Query):
- 適用于通用分割、開放詞匯分割、指代分割、GCG 分割、推理分割
- 采用特殊短語標記 < p > 和 </p > 標注類別 / 短語 / 句子
- 格式化為:"<p>category/phrase/sentence</p>"
2)視覺查詢輸入(Vision Query):
- 適用于交互式分割和 VGD 分割任務(wù)
- 支持點、涂鴉、邊界框、掩碼等多種視覺提示形式
- 使用專用標記 < region > 表示視覺提示
- 格式化為:"<p><region></p>"
3)統(tǒng)一輸出表示:
- 引入特殊標記 < SEG > 表示分割結(jié)果
- <p > 和 </p > 標記間的潛在語言嵌入作為分割解碼器的條件嵌入
X-SAM 采用端到端的統(tǒng)一分割 MLLM 架構(gòu),包含以下核心組件:

1)雙編碼器設(shè)計(Dual Encoders)
- 圖像編碼器:采用 SigLIP2-so400m 提取全局圖像特征,提升圖像理解能力。
- 分割編碼器:采用 SAM-L 提取細粒度圖像特征,提升圖像分割效果。
2)雙映射器架構(gòu)(Dual Projectors)
為增強 LLM 的圖像理解能力,X-SAM 采用特征融合策略。
- 分割特征投影:利用像素重排(pixel-shuffle)操作減少空間尺寸,通過 MLP 投影到語言嵌入空間
- 圖像特征投影:直接通過 MLP 投影與分割特征連接后輸入 LLM
3)分割連接器(Segmentation Connector)
針對圖像分割任務(wù)對細粒度多尺度特征的需求,設(shè)計了分割連接器,為分割解碼器提供豐富的多尺度信息。
- 下采樣路徑:通過 0.5 倍像素重排生成 1/32 尺度特征;
- 上采樣路徑:通過 2.0 倍像素重排生成 1/8 尺度特征;
- 原始特征:保持 1/16 尺度特征。
4)統(tǒng)一分割解碼器(Segmentation Decoder)
替換 SAM 原始解碼器,采用 Mask2Former 解碼器架構(gòu)。
- 模塊優(yōu)勢:支持單次分割所有對象,克服 SAM 單對象分割限制。
- 模塊特點:引入潛在背景嵌入表示所有任務(wù)的 "忽略" 類別,實現(xiàn)一個解碼器適配所有分割任務(wù)。
X-SAM 采用三階段漸進式訓練策略來優(yōu)化多樣化圖像分割任務(wù)的性能:
1)第一階段:分割器微調(diào)(Segmentor Fine-tuning)
- 訓練目標:微調(diào)分割器提升分割能力。
- 訓練配置:參考 Mask2Former 訓練流程,在 COCO-Panoptic 數(shù)據(jù)集上訓練。
- 優(yōu)化策略:訓練分割器所有參數(shù),分割編碼器采用較低學習率訓練
- 損失函數(shù):

2)第二階段:對齊預(yù)訓練(Alignment Pre-training)
- 訓練目標:對齊語言嵌入和視覺嵌入。
- 訓練配置:參考 LLaVA 一階段訓練流程,在 LLaVA-558K 數(shù)據(jù)集上訓練。
- 優(yōu)化策略:凍結(jié)雙編碼器和 LLM 參數(shù),僅訓練雙投影器。
- 損失函數(shù):

3)第三階段:混合微調(diào)(Mixed Fine-tuning)
- 訓練目標:在多個數(shù)據(jù)集上進行端到端協(xié)同訓練
- 優(yōu)化策略:微調(diào)模型所有參數(shù),分割編碼器和圖像編碼器采用較低學習率訓練。
- 損失函數(shù):

針對訓練數(shù)據(jù)集規(guī)模差異(0.2K 到 665K 樣本),X-SAM 采用數(shù)據(jù)集平衡重采樣策略:
數(shù)據(jù)集級別重復(fù)因子:
其中 t 為控制過采樣比例的超參數(shù),f_d 為數(shù)據(jù)集 d 的頻率。在混合訓練過程中,根據(jù) r_d 對數(shù)據(jù)集 d 進行重采樣,改善在少樣本數(shù)據(jù)集上的性能。
實驗結(jié)果
綜合性能指標
X-SAM 在超過 20 個分割數(shù)據(jù)集上進行了全面評估,涵蓋 7 種不同的圖像分割任務(wù),實現(xiàn)了全任務(wù)最優(yōu)性能。

部分關(guān)鍵任務(wù)性能指標
指代分割任務(wù):

對話生成分割任務(wù):

視覺定位分割任務(wù):

圖文理解任務(wù):

可視化結(jié)果展示


總結(jié)與展望
X-SAM 作為首個真正統(tǒng)一的分割多模態(tài)大語言模型,成功實現(xiàn)了從「segment anything」到「any segmentation」的重要跨越。通過創(chuàng)新的 VGD 分割任務(wù)、統(tǒng)一架構(gòu)設(shè)計和漸進式訓練策略,X-SAM 在保持各項任務(wù)競爭性能的同時,實現(xiàn)了更廣泛的任務(wù)覆蓋范圍,為圖像分割研究開辟了新方向,并為構(gòu)建通用視覺理解系統(tǒng)奠定了重要基礎(chǔ)。未來研究方向可以聚焦于視頻領(lǐng)域的擴展。一是與 SAM2 集成實現(xiàn)圖像和視頻的統(tǒng)一分割,進一步擴展應(yīng)用范圍;二是將 VGD 分割擴展到視頻中,引入視頻中的時序信息,構(gòu)建創(chuàng)新的視頻分割任務(wù),為視頻理解技術(shù)發(fā)展提供新的可能性。




































