X-SAM：從「分割一切」到「任意分割」：統(tǒng)一圖像分割多模態(tài)大模型，在20+個圖像分割數(shù)據(jù)集上均達SoTA

2025-08-20 09:18:13

X-SAM 作為首個真正統(tǒng)一的分割多模態(tài)大語言模型，成功實現(xiàn)了從「segment anything」到「any segmentation」的重要跨越。

本研究由中山大學、鵬城實驗室、美團聯(lián)合完成，第一作者王豪為中山大學博士研究生，主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態(tài)大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。

背景與動機

Segment Anything Model (SAM) 作為基礎(chǔ)分割模型在密集分割掩碼生成方面表現(xiàn)卓越，但其依賴視覺提示的單一輸入模式限制了在廣泛圖像分割任務(wù)中的適用性。多模態(tài)大語言模型（MLLMs）雖在圖像描述、視覺問答等任務(wù)中表現(xiàn)出色，但輸出局限于文本生成，無法直接處理像素級視覺任務(wù)，這一根本性限制阻礙了通用化模型的發(fā)展。

中山大學、鵬城實驗室、美團聯(lián)合提出 X-SAM—— 一個統(tǒng)一的圖像分割多模態(tài)大模型，將分割范式從「分割萬物」擴展到「任意分割」。X-SAM 引入了統(tǒng)一框架，使 MLLMs 具備高級像素級感知理解能力。研究團隊提出了視覺定位分割（Visual Grounded Segmentation, VGS）新任務(wù)，通過交互式視覺提示分割所有實例對象，賦予 MLLMs 視覺定位的像素級理解能力。為支持多樣化數(shù)據(jù)源的有效訓練，X-SAM 采用統(tǒng)一訓練策略，支持跨數(shù)據(jù)集聯(lián)合訓練。實驗結(jié)果顯示，X-SAM 在廣泛的圖像分割基準測試中達到最先進性能，充分展現(xiàn)了其在多模態(tài)像素級視覺理解方面的優(yōu)越性。

論文地址：https://arxiv.org/pdf/2508.04655
代碼地址：https://github.com/wanghao9610/X-SAM
Demo地址: http://47.115.200.157:7861

方法設(shè)計

X-SAM 設(shè)計了通用輸入格式和統(tǒng)一輸出表示：

1）文本查詢輸入（Text Query）：

適用于通用分割、開放詞匯分割、指代分割、GCG 分割、推理分割
采用特殊短語標記 和 標注類別 / 短語 / 句子
格式化為："category/phrase/sentence"

2）視覺查詢輸入（Vision Query）：

適用于交互式分割和 VGD 分割任務(wù)
支持點、涂鴉、邊界框、掩碼等多種視覺提示形式
使用專用標記 < region > 表示視覺提示
格式化為："<region>"

3）統(tǒng)一輸出表示：

引入特殊標記 < SEG > 表示分割結(jié)果
和 標記間的潛在語言嵌入作為分割解碼器的條件嵌入

X-SAM 采用端到端的統(tǒng)一分割 MLLM 架構(gòu)，包含以下核心組件：

1）雙編碼器設(shè)計（Dual Encoders）

圖像編碼器：采用 SigLIP2-so400m 提取全局圖像特征，提升圖像理解能力。
分割編碼器：采用 SAM-L 提取細粒度圖像特征，提升圖像分割效果。

2）雙映射器架構(gòu)（Dual Projectors）

為增強 LLM 的圖像理解能力，X-SAM 采用特征融合策略。

分割特征投影：利用像素重排（pixel-shuffle）操作減少空間尺寸，通過 MLP 投影到語言嵌入空間
圖像特征投影：直接通過 MLP 投影與分割特征連接后輸入 LLM

3）分割連接器（Segmentation Connector）

針對圖像分割任務(wù)對細粒度多尺度特征的需求，設(shè)計了分割連接器，為分割解碼器提供豐富的多尺度信息。

下采樣路徑：通過 0.5 倍像素重排生成 1/32 尺度特征；
上采樣路徑：通過 2.0 倍像素重排生成 1/8 尺度特征；
原始特征：保持 1/16 尺度特征。

4）統(tǒng)一分割解碼器（Segmentation Decoder）

替換 SAM 原始解碼器，采用 Mask2Former 解碼器架構(gòu)。

模塊優(yōu)勢：支持單次分割所有對象，克服 SAM 單對象分割限制。
模塊特點：引入潛在背景嵌入表示所有任務(wù)的 "忽略" 類別，實現(xiàn)一個解碼器適配所有分割任務(wù)。

X-SAM 采用三階段漸進式訓練策略來優(yōu)化多樣化圖像分割任務(wù)的性能：

1）第一階段：分割器微調(diào)（Segmentor Fine-tuning）

訓練目標：微調(diào)分割器提升分割能力。
訓練配置：參考 Mask2Former 訓練流程，在 COCO-Panoptic 數(shù)據(jù)集上訓練。
優(yōu)化策略：訓練分割器所有參數(shù)，分割編碼器采用較低學習率訓練
損失函數(shù)：

2）第二階段：對齊預(yù)訓練（Alignment Pre-training）

訓練目標：對齊語言嵌入和視覺嵌入。
訓練配置：參考 LLaVA 一階段訓練流程，在 LLaVA-558K 數(shù)據(jù)集上訓練。
優(yōu)化策略：凍結(jié)雙編碼器和 LLM 參數(shù)，僅訓練雙投影器。
損失函數(shù)：

3）第三階段：混合微調(diào)（Mixed Fine-tuning）

訓練目標：在多個數(shù)據(jù)集上進行端到端協(xié)同訓練
優(yōu)化策略：微調(diào)模型所有參數(shù)，分割編碼器和圖像編碼器采用較低學習率訓練。
損失函數(shù)：

針對訓練數(shù)據(jù)集規(guī)模差異（0.2K 到 665K 樣本），X-SAM 采用數(shù)據(jù)集平衡重采樣策略：

數(shù)據(jù)集級別重復(fù)因子：

其中 t 為控制過采樣比例的超參數(shù)，f_d 為數(shù)據(jù)集 d 的頻率。在混合訓練過程中，根據(jù) r_d 對數(shù)據(jù)集 d 進行重采樣，改善在少樣本數(shù)據(jù)集上的性能。

實驗結(jié)果

綜合性能指標

X-SAM 在超過 20 個分割數(shù)據(jù)集上進行了全面評估，涵蓋 7 種不同的圖像分割任務(wù)，實現(xiàn)了全任務(wù)最優(yōu)性能。

部分關(guān)鍵任務(wù)性能指標

指代分割任務(wù)：

對話生成分割任務(wù)：

視覺定位分割任務(wù)：

圖文理解任務(wù)：

可視化結(jié)果展示

總結(jié)與展望

X-SAM 作為首個真正統(tǒng)一的分割多模態(tài)大語言模型，成功實現(xiàn)了從「segment anything」到「any segmentation」的重要跨越。通過創(chuàng)新的 VGD 分割任務(wù)、統(tǒng)一架構(gòu)設(shè)計和漸進式訓練策略，X-SAM 在保持各項任務(wù)競爭性能的同時，實現(xiàn)了更廣泛的任務(wù)覆蓋范圍，為圖像分割研究開辟了新方向，并為構(gòu)建通用視覺理解系統(tǒng)奠定了重要基礎(chǔ)。未來研究方向可以聚焦于視頻領(lǐng)域的擴展。一是與 SAM2 集成實現(xiàn)圖像和視頻的統(tǒng)一分割，進一步擴展應(yīng)用范圍；二是將 VGD 分割擴展到視頻中，引入視頻中的時序信息，構(gòu)建創(chuàng)新的視頻分割任務(wù)，為視頻理解技術(shù)發(fā)展提供新的可能性。

責任編輯：張燕妮來源：機器之心

AI 模型視頻

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

X-SAM：從「分割一切」到「任意分割」：統(tǒng)一圖像分割多模態(tài)大模型，在20+個圖像分割數(shù)據(jù)集上均達SoTA

背景與動機

方法設(shè)計

實驗結(jié)果

總結(jié)與展望

X-SAM：從「分割一切」到「任意分割」：統(tǒng)一圖像分割多模態(tài)大模型，在20+個圖像分割數(shù)據(jù)集上均達SoTA