偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

X-SAM:從「分割一切」到「任意分割」:統(tǒng)一圖像分割多模態(tài)大模型,在20+個圖像分割數(shù)據(jù)集上均達SoTA

人工智能 新聞
X-SAM 作為首個真正統(tǒng)一的分割多模態(tài)大語言模型,成功實現(xiàn)了從「segment anything」到「any segmentation」的重要跨越。

本研究由中山大學、鵬城實驗室、美團聯(lián)合完成,第一作者王豪為中山大學博士研究生,主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態(tài)大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。

背景與動機

Segment Anything Model (SAM) 作為基礎(chǔ)分割模型在密集分割掩碼生成方面表現(xiàn)卓越,但其依賴視覺提示的單一輸入模式限制了在廣泛圖像分割任務(wù)中的適用性。多模態(tài)大語言模型(MLLMs)雖在圖像描述、視覺問答等任務(wù)中表現(xiàn)出色,但輸出局限于文本生成,無法直接處理像素級視覺任務(wù),這一根本性限制阻礙了通用化模型的發(fā)展。

中山大學、鵬城實驗室、美團聯(lián)合提出 X-SAM—— 一個統(tǒng)一的圖像分割多模態(tài)大模型,將分割范式從 「分割萬物」擴展到 「任意分割」。X-SAM 引入了統(tǒng)一框架,使 MLLMs 具備高級像素級感知理解能力。研究團隊提出了視覺定位分割(Visual Grounded Segmentation, VGS)新任務(wù),通過交互式視覺提示分割所有實例對象,賦予 MLLMs 視覺定位的像素級理解能力。為支持多樣化數(shù)據(jù)源的有效訓練,X-SAM 采用統(tǒng)一訓練策略,支持跨數(shù)據(jù)集聯(lián)合訓練。實驗結(jié)果顯示,X-SAM 在廣泛的圖像分割基準測試中達到最先進性能,充分展現(xiàn)了其在多模態(tài)像素級視覺理解方面的優(yōu)越性。

  • 論文地址:https://arxiv.org/pdf/2508.04655
  • 代碼地址:https://github.com/wanghao9610/X-SAM
  • Demo地址: http://47.115.200.157:7861

方法設(shè)計

X-SAM 設(shè)計了通用輸入格式和統(tǒng)一輸出表示:

1)文本查詢輸入(Text Query):

  • 適用于通用分割、開放詞匯分割、指代分割、GCG 分割、推理分割
  • 采用特殊短語標記 < p > 和 </p > 標注類別 / 短語 / 句子
  • 格式化為:"<p>category/phrase/sentence</p>"

2)視覺查詢輸入(Vision Query):

  • 適用于交互式分割和 VGD 分割任務(wù)
  • 支持點、涂鴉、邊界框、掩碼等多種視覺提示形式
  • 使用專用標記 < region > 表示視覺提示
  • 格式化為:"<p><region></p>"

3)統(tǒng)一輸出表示:

  • 引入特殊標記 < SEG > 表示分割結(jié)果
  • <p > 和 </p > 標記間的潛在語言嵌入作為分割解碼器的條件嵌入

X-SAM 采用端到端的統(tǒng)一分割 MLLM 架構(gòu),包含以下核心組件:

1)雙編碼器設(shè)計(Dual Encoders)

  • 圖像編碼器:采用 SigLIP2-so400m 提取全局圖像特征,提升圖像理解能力。
  • 分割編碼器:采用 SAM-L 提取細粒度圖像特征,提升圖像分割效果。

2)雙映射器架構(gòu)(Dual Projectors)

為增強 LLM 的圖像理解能力,X-SAM 采用特征融合策略。

  • 分割特征投影:利用像素重排(pixel-shuffle)操作減少空間尺寸,通過 MLP 投影到語言嵌入空間
  • 圖像特征投影:直接通過 MLP 投影與分割特征連接后輸入 LLM

3)分割連接器(Segmentation Connector)

針對圖像分割任務(wù)對細粒度多尺度特征的需求,設(shè)計了分割連接器,為分割解碼器提供豐富的多尺度信息。

  • 下采樣路徑:通過 0.5 倍像素重排生成 1/32 尺度特征;
  • 上采樣路徑:通過 2.0 倍像素重排生成 1/8 尺度特征;
  • 原始特征:保持 1/16 尺度特征。

4)統(tǒng)一分割解碼器(Segmentation Decoder)

替換 SAM 原始解碼器,采用 Mask2Former 解碼器架構(gòu)。

  • 模塊優(yōu)勢:支持單次分割所有對象,克服 SAM 單對象分割限制。
  • 模塊特點:引入潛在背景嵌入表示所有任務(wù)的 "忽略" 類別,實現(xiàn)一個解碼器適配所有分割任務(wù)。

X-SAM 采用三階段漸進式訓練策略來優(yōu)化多樣化圖像分割任務(wù)的性能:

1)第一階段:分割器微調(diào)(Segmentor Fine-tuning)

  • 訓練目標:微調(diào)分割器提升分割能力。
  • 訓練配置:參考 Mask2Former 訓練流程,在 COCO-Panoptic 數(shù)據(jù)集上訓練。
  • 優(yōu)化策略:訓練分割器所有參數(shù),分割編碼器采用較低學習率訓練
  • 損失函數(shù): 

2)第二階段:對齊預(yù)訓練(Alignment Pre-training)

  • 訓練目標:對齊語言嵌入和視覺嵌入。
  • 訓練配置:參考 LLaVA 一階段訓練流程,在 LLaVA-558K 數(shù)據(jù)集上訓練。
  • 優(yōu)化策略:凍結(jié)雙編碼器和 LLM 參數(shù),僅訓練雙投影器。
  • 損失函數(shù): 

3)第三階段:混合微調(diào)(Mixed Fine-tuning)

  • 訓練目標:在多個數(shù)據(jù)集上進行端到端協(xié)同訓練
  • 優(yōu)化策略:微調(diào)模型所有參數(shù),分割編碼器和圖像編碼器采用較低學習率訓練。
  • 損失函數(shù):

針對訓練數(shù)據(jù)集規(guī)模差異(0.2K 到 665K 樣本),X-SAM 采用數(shù)據(jù)集平衡重采樣策略:

數(shù)據(jù)集級別重復(fù)因子:

其中 t 為控制過采樣比例的超參數(shù),f_d 為數(shù)據(jù)集 d 的頻率。在混合訓練過程中,根據(jù) r_d 對數(shù)據(jù)集 d 進行重采樣,改善在少樣本數(shù)據(jù)集上的性能。

實驗結(jié)果

綜合性能指標

X-SAM 在超過 20 個分割數(shù)據(jù)集上進行了全面評估,涵蓋 7 種不同的圖像分割任務(wù),實現(xiàn)了全任務(wù)最優(yōu)性能。

部分關(guān)鍵任務(wù)性能指標

指代分割任務(wù):

對話生成分割任務(wù):

視覺定位分割任務(wù):

圖文理解任務(wù):

可視化結(jié)果展示

總結(jié)與展望

X-SAM 作為首個真正統(tǒng)一的分割多模態(tài)大語言模型,成功實現(xiàn)了從「segment anything」到「any segmentation」的重要跨越。通過創(chuàng)新的 VGD 分割任務(wù)、統(tǒng)一架構(gòu)設(shè)計和漸進式訓練策略,X-SAM 在保持各項任務(wù)競爭性能的同時,實現(xiàn)了更廣泛的任務(wù)覆蓋范圍,為圖像分割研究開辟了新方向,并為構(gòu)建通用視覺理解系統(tǒng)奠定了重要基礎(chǔ)。未來研究方向可以聚焦于視頻領(lǐng)域的擴展。一是與 SAM2 集成實現(xiàn)圖像和視頻的統(tǒng)一分割,進一步擴展應(yīng)用范圍;二是將 VGD 分割擴展到視頻中,引入視頻中的時序信息,構(gòu)建創(chuàng)新的視頻分割任務(wù),為視頻理解技術(shù)發(fā)展提供新的可能性。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-07-30 10:51:51

2023-04-25 11:36:17

CV模型

2024-10-17 16:54:47

2023-05-19 13:24:20

模型AI

2023-12-10 15:21:39

2023-12-07 07:16:57

Meta訓練

2023-07-17 13:14:45

模型分割

2023-06-01 09:00:00

圖像分割模自動化

2025-10-13 15:52:48

MetaAI模型

2023-04-23 15:42:18

圖像視頻

2025-10-14 09:01:00

2023-06-01 08:00:00

圖像分割機器學習

2025-03-13 11:11:04

2023-04-27 09:27:44

視頻AI

2023-11-22 11:40:00

Meta模型

2024-03-01 10:04:11

研究訓練編碼器

2023-04-10 15:52:57

模型樣本

2023-05-04 12:19:47

模型AI

2023-08-09 17:38:47

模型AI
點贊
收藏

51CTO技術(shù)棧公眾號