偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CLIP當RNN用入選CVPR:無需訓練即可分割無數(shù)概念|牛津大學&谷歌研究院

人工智能
CaR(CLIP as RNN)是一種創(chuàng)新的循環(huán)神經(jīng)網(wǎng)絡框架,能夠在無需額外訓練數(shù)據(jù)的情況下,有效地進行零樣本語義和指代圖像分割任務。它通過保留預訓練視覺-語言模型的廣泛詞匯空間,并利用迭代過程不斷優(yōu)化文本查詢與掩膜提議的對齊度,顯著提升了分割質量。

循環(huán)調用CLIP,無需額外訓練就有效分割無數(shù)概念。

包括電影動漫人物,地標,品牌,和普通類別在內的任意短語。

圖片

牛津大學與谷歌研究院聯(lián)合團隊的這項新成果,已被CVPR 2024接收,并開源了代碼。

圖片

團隊提出名為CLIP as RNN(簡稱CaR)的新技術,解決了開放詞匯量圖像分割領域中的幾個關鍵問題:

  • 無需訓練數(shù)據(jù):傳統(tǒng)方法需要大量的掩膜注釋或圖像-文本數(shù)據(jù)集進行微調,CaR技術則無需任何額外的訓練數(shù)據(jù)即可工作。
  • 開放詞匯量的限制:預訓練的視覺-語言模型(VLMs)在經(jīng)過微調后,其處理開放詞匯量的能力受到限制。CaR技術保留了VLMs的廣泛詞匯空間。
  • 對非圖像中概念的文本查詢處理:在沒有微調的情況下,VLMs難以對圖像中不存在的概念進行準確分割,CaR通過迭代過程逐步優(yōu)化,提高了分割質量。

受RNN啟發(fā),循環(huán)調用CLIP

要理解CaR的原理,需要先回顧一下循環(huán)神經(jīng)網(wǎng)絡RNN。

RNN引入了隱狀態(tài)(hidden state)的概念,就像是一個”記憶體”,存儲了過去時間步的信息。而且每個時間步共享同一組權重,可以很好地建模序列數(shù)據(jù)。

受RNN啟發(fā),CaR也設計成循環(huán)的框架,由兩部分組成:

  • 掩膜提議生成器:借助CLIP為每個文本查詢生成一個mask。
  • 掩膜分類器:再用一個CLIP模型,評估生成的每個mask和對應的文本查詢的匹配度。如果匹配度低,就把那個文本查詢剔除掉。

就這樣反復迭代下去,文本查詢會越來越精準,mask的質量也會越來越高。

最后當查詢集合不再變化,就可以輸出最終的分割結果了。

圖片

之所以要設計這個遞歸框架,是為了最大限度地保留CLIP預訓練的”知識”。

CLIP預訓練中見過的概念可是海量,涵蓋了從名人、地標到動漫角色等方方面面。如果在分割數(shù)據(jù)集上微調,詞匯量勢必會大幅縮水。

例如“分割一切”SAM模型就只能認出一瓶可口可樂,百事可樂是一瓶也不認了。

圖片

但是直接拿CLIP做分割,效果又不盡如人意。

這是因為CLIP的預訓練目標本來就不是為密集預測設計的。尤其是當圖像中不存在某些文本查詢時,CLIP很容易生成一些錯誤的mask。

CaR巧妙地通過RNN式的迭代來解決這個問題。通過反復評估、篩選查詢,同時完善mask,最終實現(xiàn)了高質量的開放詞匯分割。

最后再來跟隨團隊的解讀,了解一下CaR框架的細節(jié)。

CaR技術細節(jié)

圖片

  • 循環(huán)神經(jīng)網(wǎng)絡框架:CaR采用了一個新穎的循環(huán)框架,通過迭代過程不斷優(yōu)化文本查詢與圖像之間的對應關系。
  • 兩階段分割器:由掩膜提議生成器和掩膜分類器組成,均基于預訓練的CLIP模型構建,且權重在迭代過程中保持不變。
  • 掩膜提議生成:使用gradCAM技術,基于圖像和文本特征的相似度得分來生成掩膜提議。
  • 視覺提示:應用如紅圈、背景模糊等視覺提示,以增強模型對圖像特定區(qū)域的關注。
  • 閾值函數(shù):通過設置相似度閾值,篩選出與文本查詢對齊程度高的掩膜提議。
  • 后處理:使用密集條件隨機場(CRF)和可選的SAM模型進行掩膜細化。

通過這些技術手段,CaR技術在多個標準數(shù)據(jù)集上實現(xiàn)了顯著的性能提升,超越了傳統(tǒng)的零樣本學習方法,并在與進行了大量數(shù)據(jù)微調的模型相比時也展現(xiàn)出了競爭力。如下表所示,盡管完全無需額外訓練及微調,CaR在零樣本語義分割的8個不同指標上表現(xiàn)出比之前在額外數(shù)據(jù)上進行微調過的方法更強的性能。

圖片

作者還測試了CaR在零樣本Refering segmentation的效果,CaR也表現(xiàn)出了相較之前零樣本的方法表現(xiàn)出更強的性能。

圖片

綜上所述,CaR(CLIP as RNN)是一種創(chuàng)新的循環(huán)神經(jīng)網(wǎng)絡框架,能夠在無需額外訓練數(shù)據(jù)的情況下,有效地進行零樣本語義和指代圖像分割任務。它通過保留預訓練視覺-語言模型的廣泛詞匯空間,并利用迭代過程不斷優(yōu)化文本查詢與掩膜提議的對齊度,顯著提升了分割質量。

CaR的優(yōu)勢在于其無需微調、處理復雜文本查詢的能力和對視頻領域的擴展性,為開放詞匯量圖像分割領域帶來了突破性進展。

論文鏈接:https://arxiv.org/abs/2312.07661。
項目主頁:https://torrvision.com/clip_as_rnn/。

責任編輯:姜華 來源: 量子位
相關推薦

2018-10-10 13:57:32

區(qū)塊鏈技術智能

2022-02-10 15:15:41

人工智能強化學習谷歌

2024-07-10 13:20:45

2023-12-03 23:01:49

算法研究

2025-10-11 15:18:35

AnthropicAI安全大模型

2023-11-26 18:04:00

IDEA視覺

2024-04-23 09:30:07

3D模型

2014-11-19 15:08:38

SAP

2025-10-22 02:00:00

AI全球大裁員AI就業(yè)影響

2021-02-01 09:51:35

IBM中國研究院

2025-09-03 09:02:00

2021-10-13 17:28:33

AI 數(shù)據(jù)人工智能

2021-10-11 14:30:50

人工智能數(shù)據(jù)技術

2022-04-22 11:22:47

達摩院阿里巴巴

2025-08-14 12:03:50

2022-03-03 10:06:41

Transforme模型機器學習

2021-03-23 13:49:21

人工智能機器學習

2022-09-30 11:55:36

AI算力

2022-04-11 11:37:13

AI研究NLP

2024-12-23 14:30:00

AI模型數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號