Meta「分割一切」3.0曝光!技能語義分割加入概念提示,好好玩,要爆了
傳統(tǒng)語義分割好無趣好無聊,技能語義分割加入概念提示,好好玩,要爆了。(doge)
SAM 3——第三代“分割一切”模型剛剛被發(fā)現(xiàn),已經(jīng)悄然投稿ICLR 2026。
論文還在雙盲評審階段,作者匿名中,但標題暴露一切。

簡單來說,就是在這個官方新版中,分割模型終于能聽懂人話了:只要說出想要的東西,SAM 3就能在圖像/視頻中分割出對應實例。
比如,輸入“條紋貓”,SAM 3自己就能找出并分割圖中所有帶條紋的貓貓:

值得一提的是,SAM 3處理一張含100多個物體的圖片僅需30ms,對視頻也有近實時處理能力。
能聽懂人話的SAM
SAM 1引入了基于點、框、掩碼等視覺提示的交互式分割任務,開辟了分割模型的新范式;SAM 2則在此基礎之上,加入了對視頻和記憶的支持。
這一次,SAM 3讓這種交互式分割更進一步:支持基于短語、圖像示例等概念提示的多實例分割任務——對,捎帶手突破了前代只能處理單個實例的局限。
論文中,SAM 3的研究團隊將這種新任務范式命名為PCS(Promptable Concept Segmentation)。
PCS:可提示概念分割
PCS的定義是,給定圖像或視頻,模型能夠基于短語、圖像示例,或者兩者結合的方式,分割其中所有匹配提示概念的實例。
相比于傳統(tǒng)分割任務,PCS強調(diào):
- 開放性詞匯:不局限于預定義的固定類別,支持用戶輸入任意名詞短語作為分割目標;
- 全實例分割:找到并分割所有符合提示的實例,在視頻中,還能保持不同幀之間的身份一致性;
- 多模態(tài)提示:支持多種提示輸入,包括文本提示、視覺提示,以及兩者結合的方式;
- 用戶交互:允許用戶通過交互進行分割結果的精細優(yōu)化。
新架構設計
SAM 3為實現(xiàn)PCS設計了新的架構。

主要是在檢測與分割模塊上,SAM 3的檢測器基于DETR(Deformable Transformer)架構,能夠根據(jù)語言和視覺提示生成實例級的檢測結果。
同時,引入了Presence Head模塊,解耦物體的識別(是什么)和定位(在哪里)任務——
在傳統(tǒng)對象檢測框架中,模型往往需要同時判斷目標是否存在、位置在哪里,這可能導致沖突,尤其是在多實例分割任務中容易出問題。
Presence Head將兩者分開處理,從而進一步提升了模型的檢測精度。
大規(guī)模數(shù)據(jù)引擎
為了改進PCS,研究團隊還專門構建了一個可擴展的數(shù)據(jù)引擎,生成覆蓋400萬獨特概念標簽、5200萬經(jīng)過驗證的掩碼的訓練數(shù)據(jù)集。
數(shù)據(jù)引擎由多階段構成,能夠逐步提升數(shù)據(jù)的多樣性和難度。
整個構建過程中人類和大語言模型會相互檢查彼此的工作,保證高質(zhì)量的同時提升了標注的效率。

SA-Co基準
為了評估模型在開放詞匯分割任務中的性能,論文還提出了SA-Co(Segment Anything with Concepts)基準。
SA-Co包含214K獨特概念、124K圖像和1.7K視頻,概念覆蓋范圍能達到現(xiàn)有基準的50倍以上。

不過需要說明的是,SAM 3對語言的處理還局限于簡單的短語提示,不支持復雜的語言表達,并不具備多模態(tài)大模型的語言生成、復雜語言理解和推理能力。
實驗結果
實驗結果表明,SAM 3在可提示分割任務中刷新了SOTA。
在LVIS數(shù)據(jù)集的零樣本分割任務中,SAM 3的準確率達到了47.0,比此前的SOTA 38.5提升不少。
在新的SA-Co基準測試中,SAM 3的表現(xiàn)至少比基線方法強2倍。

另外,在針對視頻的PVS(Promptable Visual Segmentation)任務中,SAM 3的性能也優(yōu)于SAM 2。

研究人員還把SAM 3和多模態(tài)大模型(MLLM)相結合,探索解決更復雜的任務需求。
比如分割圖片中“坐著但沒拿禮物盒的人”。
大模型會先拆解需求,比如先找坐著的人,再排除拿禮物盒的人,然后給SAM 3發(fā)指令。
結果顯示,SAM 3+MLLM的組合比專門做推理分割的模型效果還要好,并且無需專門的數(shù)據(jù)做訓練。

在H200 GPU上,SAM 3處理含100多個實體的單張圖像只需要30ms的時間。在視頻任務中,推理延遲隨著目標數(shù)量線性增加,能在約5個并發(fā)目標的情況下維持接近實時的性能。
不過,論文也指出,SAM 3難以通過零樣本的方式,將能力泛化到如醫(yī)療圖像、熱成像之類的細分領域。
視頻分割任務中,遇到多目標場景,模型的實時性能會下降,需要多GPU并行處理。
論文地址:
https://openreview.net/forum?id=r35clVtGzw





































