ICLR 2026驚現(xiàn)SAM 3,分割一切的下一步:讓模型理解「概念」
Meta 的「分割一切」再上新?
9 月 12 日,一篇匿名論文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陸 ICLR 2026,引發(fā)網(wǎng)友廣泛關(guān)注。

- 論文標(biāo)題:SAM 3: Segment Anything with Concepts
- 論文地址:https://openreview.net/forum?id=r35clVtGzw
大家紛紛猜測(cè),這篇論文出自 Meta,畢竟文風(fēng)和 Meta 以前發(fā)布的論文非常相似。再加上 SAM 與 SAM 2 均由 Meta 推出,這讓外界幾乎可以確定,SAM 3 就是 Meta「Segment Anything」系列的正式續(xù)作。

在時(shí)間節(jié)點(diǎn)上,這篇論文的出現(xiàn)也幾乎完美契合 Meta 的節(jié)奏。SAM 1 于 2023 年 4 月發(fā)表,獲得當(dāng)年 ICCV 最佳論文提名,其(零樣本)分割一切的概念讓研究者直呼「CV」不存在了,并且被譽(yù)為 CV 領(lǐng)域的「GPT-3 時(shí)刻」。
SAM 2 于 2024 年 7 月發(fā)表,在前身的基礎(chǔ)上為靜態(tài)圖像和動(dòng)態(tài)視頻內(nèi)容提供實(shí)時(shí)、可提示的對(duì)象分割,將圖像和視頻分割功能統(tǒng)一到一個(gè)強(qiáng)大的系統(tǒng)中。
而如今,又是一年過(guò)去了。SAM 3 的登場(chǎng)似乎恰逢其時(shí)。
那么這次 SAM 3 有什么新進(jìn)展呢?
它被定義為一個(gè)更高級(jí)的任務(wù):可提示概念分割(Promptable Concept Segmentation, PCS)。
即將文本和 / 或圖像范例作為輸入,為每一個(gè)與該概念匹配的對(duì)象預(yù)測(cè)實(shí)例掩碼和語(yǔ)義掩碼,同時(shí)在視頻幀之間保持對(duì)象身份的一致性。該工作的重點(diǎn)是識(shí)別原子視覺(jué)概念 (atomic visual concepts),因此將輸入文本限制為簡(jiǎn)單的名詞短語(yǔ),例如「紅蘋(píng)果」或「條紋貓」,只要描述你想要的東西,它就能在圖像或視頻中找到并分割出每一個(gè)對(duì)應(yīng)實(shí)例。
這意味著,分割終于學(xué)會(huì)了理解語(yǔ)言,但不是那種模糊的語(yǔ)義聯(lián)想,而是一種扎根于視覺(jué)的極簡(jiǎn)理解方式。說(shuō)出概念,它就明白你在說(shuō)什么,并在所有出現(xiàn)的位置精確描繪出邊界。
有的小伙伴可能記得,SAM 1 就有文本功能,這次又有什么不同呢?
論文中明確指出,在 SAM 1 中,文本提示的功能「沒(méi)有被完全開(kāi)發(fā)」(were not fully developed)。SAM 1 和 SAM 2 的實(shí)際重點(diǎn)在于視覺(jué)提示(如點(diǎn)、框、掩碼)。

它們未能解決一個(gè)更廣泛的任務(wù):即找到并分割出輸入內(nèi)容中(例如,一段視頻里所有的「貓」)出現(xiàn)的某一概念的所有實(shí)例。

簡(jiǎn)單來(lái)說(shuō),SAM 3 讓用戶從「手動(dòng)一個(gè)個(gè)點(diǎn)出來(lái)」升級(jí)到了「告訴模型一個(gè)概念,它幫你全部找出來(lái)」。

SAM3 在兩方面均取得進(jìn)步。在通過(guò)點(diǎn)擊進(jìn)行可提示視覺(jué)分割方面(左圖),SAM3 的性能優(yōu)于 SAM2;同時(shí),它在可提示概念分割方面(右圖)也取得了進(jìn)展,用戶可以通過(guò)一個(gè)簡(jiǎn)短的名詞短語(yǔ)、圖像范例或兩者的組合,來(lái)指定一個(gè)視覺(jué)概念并分割出其所有實(shí)例。
在論文提出的新基準(zhǔn) SA-Co 上,SAM 3 的性能比之前的系統(tǒng)提升了至少 2 倍 。在多個(gè)公開(kāi)基準(zhǔn)測(cè)試上取得了 SOTA 成績(jī)。例如,在 LVIS 數(shù)據(jù)集上,它的零樣本掩碼平均精度達(dá)到了 47.0,而之前的最佳紀(jì)錄是 38.5 。
同時(shí),模型在單個(gè) H200 GPU 上處理一張有超過(guò) 100 個(gè)物體的圖像僅需 30 毫秒 。
不過(guò)評(píng)論區(qū)也對(duì)該工作提出了質(zhì)疑。有人指出,根據(jù)文本描述分割物體的想法并不新鮮,在學(xué)術(shù)界早已被稱(chēng)為「指代分割」,并且已有相當(dāng)多的研究。因此,有人認(rèn)為這項(xiàng)工作只是將一個(gè)舊概念「重新命名」和包裝。

還有評(píng)論認(rèn)為,Meta 只是在「追趕」開(kāi)源社區(qū)的步伐,因?yàn)樯鐓^(qū)早已通過(guò)組合不同的模型(例如,將檢測(cè)模型與 LLM API 結(jié)合)實(shí)現(xiàn)了類(lèi)似的功能。

方法介紹
文中提到,SAM 3 是對(duì) SAM 2 的擴(kuò)展,其在圖像與視頻中實(shí)現(xiàn)了可提示分割(promptable segmentation)的重大突破。
與 SAM 2 相比,SAM 3 在可提示視覺(jué)分割(Promptable Visual Segmentation,PVS)上表現(xiàn)更優(yōu),并為可提示概念分割(Promptable Concept Segmentation,PCS)設(shè)定了新的標(biāo)準(zhǔn)。
至于 PCS 任務(wù)以及 PVS 任務(wù),簡(jiǎn)單來(lái)說(shuō)就是,SAM 3 接收概念提示(如簡(jiǎn)單的名詞短語(yǔ)如黃色校車(chē)、圖像示例)或視覺(jué)提示(如點(diǎn)、框、掩碼)來(lái)定義需要進(jìn)行時(shí)空分割的對(duì)象(可逐個(gè)分割)。
可以說(shuō),本文聚焦的重點(diǎn)是識(shí)別原子級(jí)視覺(jué)概念,如紅色蘋(píng)果(red apple)或條紋貓。如圖 1 所示,用戶可通過(guò)簡(jiǎn)短名詞短語(yǔ)、圖像示例或二者組合,分割指定視覺(jué)概念的所有實(shí)例。

不過(guò) PCS 本身存在固有模糊性,許多概念具有多重釋義:例如小窗戶這個(gè)短語(yǔ)就很有主觀性(多大算小?多大算大?)和邊界模糊(是否包含百葉窗?)。
針對(duì)這一問(wèn)題,Meta 在數(shù)據(jù)收集、指標(biāo)設(shè)計(jì)和模型訓(xùn)練等多個(gè)階段對(duì)這些模糊性問(wèn)題進(jìn)行了系統(tǒng)化處理。與前代 SAM 版本一致,SAM 3 保持完全交互性,允許用戶通過(guò)添加優(yōu)化提示來(lái)消除歧義,引導(dǎo)模型生成預(yù)期輸出。
在模型架構(gòu)上,SAM 3 采用雙編碼器 - 解碼器 Transformer 架構(gòu),這是一個(gè)具有圖像級(jí)識(shí)別能力的檢測(cè)器 —— 通過(guò)與跟蹤器和內(nèi)存模塊相結(jié)合,可應(yīng)用于視頻領(lǐng)域。檢測(cè)器和跟蹤器通過(guò)對(duì)齊的感知編碼器(PE)主干網(wǎng)絡(luò)接收視覺(jué) - 語(yǔ)言輸入。

此外,該研究還構(gòu)建了一個(gè)可擴(kuò)展的人機(jī)協(xié)同數(shù)據(jù)引擎(如下圖),用于為大規(guī)模多樣化訓(xùn)練數(shù)據(jù)集進(jìn)行標(biāo)注?;谶@套系統(tǒng),該研究成功標(biāo)注了包含 400 萬(wàn)獨(dú)特短語(yǔ)和 5200 萬(wàn)掩碼的高質(zhì)量訓(xùn)練數(shù)據(jù),以及包含 3800 萬(wàn)短語(yǔ)和 14 億掩碼的合成數(shù)據(jù)集。

更進(jìn)一步的,本文還創(chuàng)建了用于 PCS 任務(wù)的 Segment Anything with Concepts(SA-Co)基準(zhǔn)測(cè)試,涵蓋 124K 張圖像和 1.7K 視頻中的 214K 獨(dú)特概念,其概念數(shù)量超過(guò)現(xiàn)有基準(zhǔn)測(cè)試集 50 倍以上。

實(shí)驗(yàn)
表 1 顯示:在零樣本設(shè)置下,SAM 3 在封閉詞匯數(shù)據(jù)集 COCO、COCO-O 和 LVIS 的邊界框檢測(cè)任務(wù)中具有競(jìng)爭(zhēng)力,在 LVIS 掩碼任務(wù)上表現(xiàn)顯著更好。
在開(kāi)放詞匯 SA-Co/Gold 數(shù)據(jù)集上,SAM 3 的 CGF 分?jǐn)?shù)是最強(qiáng)基線 OWLv2 的兩倍,在其他 SA-Co 子集上的提升甚至更高。
在 ADE-847、PascalConcept-59 和 Cityscapes 上進(jìn)行的開(kāi)放詞匯語(yǔ)義分割實(shí)驗(yàn)顯示,SAM 3 的表現(xiàn)超越了強(qiáng)大的專(zhuān)家型基線 APE。

小樣本自適應(yīng)。SAM 3 在 10-shot 設(shè)置下實(shí)現(xiàn)了當(dāng)前最優(yōu)性能,超過(guò)了 Gemini 的上下文提示以及目標(biāo)檢測(cè)專(zhuān)家模型(如 gDino)。
帶有 1 個(gè)樣本的 PCS。表 3 顯示在三種設(shè)置下,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上的表現(xiàn)均遠(yuǎn)超之前最先進(jìn)的 T-Rex2。

物體計(jì)數(shù)。結(jié)果如表 4 所示,與 MLLM 相比,SAM 3 不僅實(shí)現(xiàn)了良好的物體計(jì)數(shù)準(zhǔn)確率,而且還提供了大多數(shù) MLLM 無(wú)法提供的對(duì)象分割功能。

SAM 3 在文本提示下的視頻分割表現(xiàn)。結(jié)果顯示 SAM 3 的表現(xiàn)遠(yuǎn)超基線,尤其是在包含大量名詞短語(yǔ)的基準(zhǔn)測(cè)試中。

表 6 將 SAM 3 與 VOS(Video Object Segmentation) 任務(wù)上的先進(jìn)方法進(jìn)行了比較。SAM 3 在大多數(shù)基準(zhǔn)測(cè)試中都比 SAM 2 取得了顯著的改進(jìn)。對(duì)于交互式圖像分割任務(wù),SAM 3 在平均 mIoU 方面優(yōu)于 SAM 2。

了解更多內(nèi)容,請(qǐng)參考原論文。



























