偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta「分割一切」3.0曝光!技能語義分割加入概念提示,好好玩,要爆了

人工智能 新聞
SAM 3——第三代“分割一切”模型剛剛被發(fā)現(xiàn),已經(jīng)悄然投稿ICLR 2026。

傳統(tǒng)語義分割好無趣好無聊,技能語義分割加入概念提示,好好玩,要爆了。(doge)

SAM 3——第三代“分割一切”模型剛剛被發(fā)現(xiàn),已經(jīng)悄然投稿ICLR 2026。

論文還在雙盲評審階段,作者匿名中,但標題暴露一切。

簡單來說,就是在這個官方新版中,分割模型終于能聽懂人話了:只要說出想要的東西,SAM 3就能在圖像/視頻中分割出對應實例。

比如,輸入“條紋貓”,SAM 3自己就能找出并分割圖中所有帶條紋的貓貓:

值得一提的是,SAM 3處理一張含100多個物體的圖片僅需30ms,對視頻也有近實時處理能力。

能聽懂人話的SAM

SAM 1引入了基于點、框、掩碼等視覺提示的交互式分割任務,開辟了分割模型的新范式;SAM 2則在此基礎之上,加入了對視頻和記憶的支持。

這一次,SAM 3讓這種交互式分割更進一步:支持基于短語、圖像示例等概念提示多實例分割任務——對,捎帶手突破了前代只能處理單個實例的局限。

論文中,SAM 3的研究團隊將這種新任務范式命名為PCS(Promptable Concept Segmentation)。

PCS:可提示概念分割

PCS的定義是,給定圖像或視頻,模型能夠基于短語、圖像示例,或者兩者結合的方式,分割其中所有匹配提示概念的實例。

相比于傳統(tǒng)分割任務,PCS強調(diào):

  • 開放性詞匯:不局限于預定義的固定類別,支持用戶輸入任意名詞短語作為分割目標;
  • 全實例分割:找到并分割所有符合提示的實例,在視頻中,還能保持不同幀之間的身份一致性;
  • 多模態(tài)提示:支持多種提示輸入,包括文本提示、視覺提示,以及兩者結合的方式;
  • 用戶交互:允許用戶通過交互進行分割結果的精細優(yōu)化。

新架構設計

SAM 3為實現(xiàn)PCS設計了新的架構。

主要是在檢測與分割模塊上,SAM 3的檢測器基于DETR(Deformable Transformer)架構,能夠根據(jù)語言和視覺提示生成實例級的檢測結果。

同時,引入了Presence Head模塊,解耦物體的識別(是什么)和定位(在哪里)任務——

在傳統(tǒng)對象檢測框架中,模型往往需要同時判斷目標是否存在、位置在哪里,這可能導致沖突,尤其是在多實例分割任務中容易出問題。

Presence Head將兩者分開處理,從而進一步提升了模型的檢測精度。

大規(guī)模數(shù)據(jù)引擎

為了改進PCS,研究團隊還專門構建了一個可擴展的數(shù)據(jù)引擎,生成覆蓋400萬獨特概念標簽、5200萬經(jīng)過驗證的掩碼的訓練數(shù)據(jù)集。

數(shù)據(jù)引擎由多階段構成,能夠逐步提升數(shù)據(jù)的多樣性和難度。

整個構建過程中人類和大語言模型會相互檢查彼此的工作,保證高質(zhì)量的同時提升了標注的效率。

SA-Co基準

為了評估模型在開放詞匯分割任務中的性能,論文還提出了SA-Co(Segment Anything with Concepts)基準。

SA-Co包含214K獨特概念、124K圖像和1.7K視頻,概念覆蓋范圍能達到現(xiàn)有基準的50倍以上。

不過需要說明的是,SAM 3對語言的處理還局限于簡單的短語提示,不支持復雜的語言表達,并不具備多模態(tài)大模型的語言生成、復雜語言理解和推理能力。

實驗結果

實驗結果表明,SAM 3在可提示分割任務中刷新了SOTA。

在LVIS數(shù)據(jù)集的零樣本分割任務中,SAM 3的準確率達到了47.0,比此前的SOTA 38.5提升不少。

在新的SA-Co基準測試中,SAM 3的表現(xiàn)至少比基線方法強2倍。

另外,在針對視頻的PVS(Promptable Visual Segmentation)任務中,SAM 3的性能也優(yōu)于SAM 2。

研究人員還把SAM 3和多模態(tài)大模型(MLLM)相結合,探索解決更復雜的任務需求。

比如分割圖片中“坐著但沒拿禮物盒的人”。

大模型會先拆解需求,比如先找坐著的人,再排除拿禮物盒的人,然后給SAM 3發(fā)指令。

結果顯示,SAM 3+MLLM的組合比專門做推理分割的模型效果還要好,并且無需專門的數(shù)據(jù)做訓練。

在H200 GPU上,SAM 3處理含100多個實體的單張圖像只需要30ms的時間。在視頻任務中,推理延遲隨著目標數(shù)量線性增加,能在約5個并發(fā)目標的情況下維持接近實時的性能。

不過,論文也指出,SAM 3難以通過零樣本的方式,將能力泛化到如醫(yī)療圖像、熱成像之類的細分領域。

視頻分割任務中,遇到多目標場景,模型的實時性能會下降,需要多GPU并行處理。

論文地址:
https://openreview.net/forum?id=r35clVtGzw

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-30 10:51:51

2024-03-01 10:04:11

研究訓練編碼器

2023-07-17 13:14:45

模型分割

2023-04-23 15:42:18

圖像視頻

2023-04-10 15:52:57

模型樣本

2023-05-04 12:19:47

模型AI

2023-12-07 07:16:57

Meta訓練

2023-04-27 09:27:44

視頻AI

2023-04-25 11:36:17

CV模型

2023-05-19 13:24:20

模型AI

2025-08-20 09:18:13

2025-10-14 09:01:00

2023-10-05 12:28:41

AI論文

2023-11-22 11:40:00

Meta模型

2023-06-27 17:35:39

FastSAM模型SAM

2025-03-13 11:11:04

2015-07-17 09:59:18

2023-10-04 18:55:51

論文模型

2023-12-06 13:36:00

模型數(shù)據(jù)

2023-04-25 17:06:38

視覺任務
點贊
收藏

51CTO技術棧公眾號