偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Meta「分割一切」3.0曝光！技能語義分割加入概念提示，好好玩，要爆了

2025-10-13 15:52:48

人工智能新聞

SAM 3——第三代“分割一切”模型剛剛被發(fā)現(xiàn)，已經(jīng)悄然投稿ICLR 2026。

傳統(tǒng)語義分割好無趣好無聊，技能語義分割加入概念提示，好好玩，要爆了。（doge）

SAM 3——第三代“分割一切”模型剛剛被發(fā)現(xiàn)，已經(jīng)悄然投稿ICLR 2026。

論文還在雙盲評審階段，作者匿名中，但標題暴露一切。

簡單來說，就是在這個官方新版中，分割模型終于能聽懂人話了：只要說出想要的東西，SAM 3就能在圖像/視頻中分割出對應實例。

比如，輸入“條紋貓”，SAM 3自己就能找出并分割圖中所有帶條紋的貓貓：

值得一提的是，SAM 3處理一張含100多個物體的圖片僅需30ms，對視頻也有近實時處理能力。

能聽懂人話的SAM

SAM 1引入了基于點、框、掩碼等視覺提示的交互式分割任務，開辟了分割模型的新范式；SAM 2則在此基礎之上，加入了對視頻和記憶的支持。

這一次，SAM 3讓這種交互式分割更進一步：支持基于短語、圖像示例等概念提示的多實例分割任務——對，捎帶手突破了前代只能處理單個實例的局限。

論文中，SAM 3的研究團隊將這種新任務范式命名為PCS（Promptable Concept Segmentation）。

PCS：可提示概念分割

PCS的定義是，給定圖像或視頻，模型能夠基于短語、圖像示例，或者兩者結合的方式，分割其中所有匹配提示概念的實例。

相比于傳統(tǒng)分割任務，PCS強調(diào)：

開放性詞匯：不局限于預定義的固定類別，支持用戶輸入任意名詞短語作為分割目標；
全實例分割：找到并分割所有符合提示的實例，在視頻中，還能保持不同幀之間的身份一致性；
多模態(tài)提示：支持多種提示輸入，包括文本提示、視覺提示，以及兩者結合的方式；
用戶交互：允許用戶通過交互進行分割結果的精細優(yōu)化。

新架構設計

SAM 3為實現(xiàn)PCS設計了新的架構。

主要是在檢測與分割模塊上，SAM 3的檢測器基于DETR（Deformable Transformer）架構，能夠根據(jù)語言和視覺提示生成實例級的檢測結果。

同時，引入了Presence Head模塊，解耦物體的識別（是什么）和定位（在哪里）任務——

在傳統(tǒng)對象檢測框架中，模型往往需要同時判斷目標是否存在、位置在哪里，這可能導致沖突，尤其是在多實例分割任務中容易出問題。

Presence Head將兩者分開處理，從而進一步提升了模型的檢測精度。

大規(guī)模數(shù)據(jù)引擎

為了改進PCS，研究團隊還專門構建了一個可擴展的數(shù)據(jù)引擎，生成覆蓋400萬獨特概念標簽、5200萬經(jīng)過驗證的掩碼的訓練數(shù)據(jù)集。

數(shù)據(jù)引擎由多階段構成，能夠逐步提升數(shù)據(jù)的多樣性和難度。

整個構建過程中人類和大語言模型會相互檢查彼此的工作，保證高質(zhì)量的同時提升了標注的效率。

SA-Co基準

為了評估模型在開放詞匯分割任務中的性能，論文還提出了SA-Co（Segment Anything with Concepts）基準。

SA-Co包含214K獨特概念、124K圖像和1.7K視頻，概念覆蓋范圍能達到現(xiàn)有基準的50倍以上。

不過需要說明的是，SAM 3對語言的處理還局限于簡單的短語提示，不支持復雜的語言表達，并不具備多模態(tài)大模型的語言生成、復雜語言理解和推理能力。

實驗結果

實驗結果表明，SAM 3在可提示分割任務中刷新了SOTA。

在LVIS數(shù)據(jù)集的零樣本分割任務中，SAM 3的準確率達到了47.0，比此前的SOTA 38.5提升不少。

在新的SA-Co基準測試中，SAM 3的表現(xiàn)至少比基線方法強2倍。

另外，在針對視頻的PVS（Promptable Visual Segmentation）任務中，SAM 3的性能也優(yōu)于SAM 2。

研究人員還把SAM 3和多模態(tài)大模型（MLLM）相結合，探索解決更復雜的任務需求。

比如分割圖片中“坐著但沒拿禮物盒的人”。

大模型會先拆解需求，比如先找坐著的人，再排除拿禮物盒的人，然后給SAM 3發(fā)指令。

結果顯示，SAM 3+MLLM的組合比專門做推理分割的模型效果還要好，并且無需專門的數(shù)據(jù)做訓練。

在H200 GPU上，SAM 3處理含100多個實體的單張圖像只需要30ms的時間。在視頻任務中，推理延遲隨著目標數(shù)量線性增加，能在約5個并發(fā)目標的情況下維持接近實時的性能。

不過，論文也指出，SAM 3難以通過零樣本的方式，將能力泛化到如醫(yī)療圖像、熱成像之類的細分領域。

視頻分割任務中，遇到多目標場景，模型的實時性能會下降，需要多GPU并行處理。

論文地址：
https://openreview.net/forum?id=r35clVtGzw

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營