偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

搜索圖片有新招了!北大課題組提出圖像檢索新方法,輸入草圖or藝術(shù)or低分辨率 | ECCV 2024

人工智能 新聞
一句話,這種檢索任務(wù)要求模型面對(duì)風(fēng)格多樣的查詢條件時(shí),依然能精準(zhǔn)找圖。

從一大堆圖片中精準(zhǔn)找圖,有新招了!論文已經(jīng)中了ECCV 2024。

北京大學(xué)袁粒課題組,聯(lián)合南洋理工大學(xué)實(shí)驗(yàn)室,清華自動(dòng)化所提出了一種新的通用檢索任務(wù):通用風(fēng)格檢索(Style-Diversified Retrieval)。

圖片

一句話,這種檢索任務(wù)要求模型面對(duì)風(fēng)格多樣的查詢條件時(shí),依然能精準(zhǔn)找圖。

傳統(tǒng)圖片檢索主要靠文本查詢,查詢方法單一不說,在使用其他檢索方案的性能也一般。

而論文提出的新圖像檢索方法,能夠根據(jù)多樣化的查詢風(fēng)格(如草圖、藝術(shù)畫、低分辨率圖像和文本等)來檢索相應(yīng)圖像,甚至包括組合查詢(草圖+文本、藝術(shù)+文本等)。

圖片

同時(shí),模型在與其他檢索基線之間的性能比較中達(dá)到SOTA。(最外圍藍(lán)色)

圖片

目前,論文已在arXiv公開,相關(guān)代碼和數(shù)據(jù)集也已開源。

新圖像檢索方法

當(dāng)前,圖像檢索的一大痛點(diǎn)是:

讓檢索模型具備理解多樣化用戶查詢向量的能力

通俗點(diǎn)說就是,不管用戶用哪種方式檢索查詢,最后都能命中用戶想要的圖像。

為了實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)進(jìn)行了兩項(xiàng)工作

  • 構(gòu)建專有的檢索數(shù)據(jù)集,包括多種類型的查詢圖片。
  • 提出即插即用的框架,使傳統(tǒng)檢索模型也能快速具有通用檢索能力。

數(shù)據(jù)集構(gòu)建

針對(duì)多種查詢風(fēng)格的圖片文本檢索任務(wù),團(tuán)隊(duì)生成并構(gòu)建了細(xì)粒度檢索數(shù)據(jù)集DSR(Diverse-Style Retrieval Dataset)。

展開來說,數(shù)據(jù)集包括10,000張自然圖片以及對(duì)應(yīng)的四種檢索風(fēng)格(文本、草圖、低分辨率、卡通藝術(shù))。

圖片

其中的草圖標(biāo)注由FSCOCO數(shù)據(jù)集提供,卡通藝術(shù)圖片和低分辨率圖像由AnimateDiff生成。

同時(shí),團(tuán)隊(duì)也采用ImageNet-X作為大尺寸粗粒度的多風(fēng)格檢索數(shù)據(jù)集。

ImageNet-X包括100萬張帶有各種風(fēng)格標(biāo)注的自然圖片,相較于DSR,ImageNet-X數(shù)據(jù)集的圖片更加簡單,便于檢索。

提出FreestyleRet框架

概括而言,F(xiàn)reestyleRet框架通過將圖片風(fēng)格提取并注入,有效解決了當(dāng)前圖片檢索模型無法兼容不同類型的檢索向量的問題。

在構(gòu)建FreestyleRet框架時(shí),團(tuán)隊(duì)主要考慮到兩個(gè)問題

  • 如何有效地理解不同風(fēng)格的查詢向量的語義信息。
  • 如何有效利用現(xiàn)有的圖文檢索模型,實(shí)現(xiàn)優(yōu)秀的擴(kuò)展能力。

圍繞這兩個(gè)核心問題,團(tuán)隊(duì)設(shè)計(jì)三個(gè)模塊來組成FreestyleRet框架:

(1)基于格拉姆矩陣的風(fēng)格提取模塊用于顯式提取未知查詢向量的風(fēng)格表征;
(2)風(fēng)格空間構(gòu)建模塊,通過對(duì)風(fēng)格表征聚類從而構(gòu)建檢索的風(fēng)格空間,并將聚類中心作為風(fēng)格的一致性表征;
(3)風(fēng)格啟發(fā)的提示微調(diào)模塊,通過對(duì)檢索模型的Transformer layer進(jìn)行風(fēng)格初始化的插值,實(shí)現(xiàn)對(duì)現(xiàn)有檢索模型的多風(fēng)格查詢能力擴(kuò)展。

圖片

風(fēng)格提取與風(fēng)格空間的構(gòu)建

格拉姆矩陣被驗(yàn)證為有效的圖像風(fēng)格提取方案,在本論文中團(tuán)隊(duì)采用基于格拉姆矩陣的風(fēng)格提取模塊對(duì)不同類型的查詢向量進(jìn)行風(fēng)格提取。

團(tuán)隊(duì)采用凍結(jié)的VGG輕量化網(wǎng)絡(luò)對(duì)查詢向量進(jìn)行表征編碼,并選取淺層卷積表征作為風(fēng)格提取的基特征,具體公式如下:

圖片

在得到查詢向量對(duì)應(yīng)的風(fēng)格表征集合后,團(tuán)隊(duì)為查詢向量集合構(gòu)建整體的風(fēng)格空間

具體來說,采用K-Means聚類算法,迭代式的計(jì)算四種不同風(fēng)格的查詢向量集合對(duì)應(yīng)的聚類中心,然后再對(duì)每個(gè)風(fēng)格表征計(jì)算其所屬的風(fēng)格中心,并根據(jù)新的風(fēng)格表征集合重新調(diào)整聚類中心的位置。

當(dāng)聚類中心位置不再發(fā)生變化即為迭代完畢,公式如下:

圖片
圖片

在風(fēng)格空間中,團(tuán)隊(duì)將不同查詢向量風(fēng)格對(duì)應(yīng)的不同聚類中心作為風(fēng)格空間的基向量。

而在推理過程中面對(duì)未知風(fēng)格的查詢向量,風(fēng)格空間將計(jì)算查詢向量在基向量上的投影,通過對(duì)基向量投影與基向量的加權(quán)求和,風(fēng)格空間實(shí)現(xiàn)對(duì)未知風(fēng)格的量化。

高效風(fēng)格注入的提示微調(diào)模塊

在圖像文本檢索領(lǐng)域,基于Transformer結(jié)構(gòu)的ALBEF, CLIP, BLIP等基礎(chǔ)檢索模型受到廣泛的使用,很多下游工作采用了這些基礎(chǔ)檢索模型的編碼器模塊。

為了讓FreestyleRet框架能夠便捷且高效的適配這些基礎(chǔ)檢索模型,團(tuán)隊(duì)采用風(fēng)格表征初始化的token對(duì)基礎(chǔ)編碼器的Transformer結(jié)構(gòu)進(jìn)行提示微調(diào)。

具體來說,在encoder layer的每層都插入使用量化風(fēng)格表征初始化的可學(xué)習(xí)token,從而實(shí)現(xiàn)風(fēng)格向編碼器注入的流程。

圖片

實(shí)驗(yàn)性能展示

在定量實(shí)驗(yàn)角度,團(tuán)隊(duì)分析了基于FreestyleRet架構(gòu)的BLIP和CLIP模型在DSR數(shù)據(jù)集以及ImageNet-X數(shù)據(jù)集的Recall@1, Recall@5性能。

實(shí)驗(yàn)證明,面對(duì)多種風(fēng)格的查詢向量時(shí),F(xiàn)reestyleRet框架可以顯著增強(qiáng)現(xiàn)有檢索模型的泛化能力,具有2-4%的提升。

圖片

而團(tuán)隊(duì)也進(jìn)一步驗(yàn)證FreestyleRet框架對(duì)于多個(gè)不同風(fēng)格的查詢向量共同輸入的性能,共同輸入的查詢向量可以進(jìn)一步提升模型的檢索精度。

圖片

通過對(duì)特征分布進(jìn)行可視化,團(tuán)隊(duì)發(fā)現(xiàn)使用FreestyleRet結(jié)構(gòu)的基礎(chǔ)檢索模型能夠有效分離查詢向量中的風(fēng)格信息與語義信息,并實(shí)現(xiàn)語義角度的高維空間聚類。

圖片

團(tuán)隊(duì)也對(duì)實(shí)際的檢索推理流程進(jìn)行了示例的可視化,以驗(yàn)證模型的泛化性。

圖片

總之,模型在5種不同類型的檢索向量上都取得了良好效果,而且還在多種檢索向量共同檢索的子任務(wù)上表現(xiàn)了良好的擴(kuò)展性。

更多詳情歡迎查閱原論文。

論文:https://arxiv.org/abs/2312.02428
代碼、數(shù)據(jù)集:https://github.com/CuriseJia/FreeStyleRet

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-07-05 10:41:30

目標(biāo)檢測算法

2017-04-10 09:17:08

神經(jīng)網(wǎng)絡(luò)分辨率像素遞歸

2024-04-08 12:18:57

訓(xùn)練AI

2021-02-24 09:30:44

人工智能PULSE超分辨率算法

2024-09-03 14:10:00

模型測試

2023-05-04 07:51:28

開源人工智能Upscayl

2023-10-12 07:43:45

2024-07-30 11:20:00

圖像視覺

2021-01-20 17:00:08

微信AI移動(dòng)應(yīng)用

2024-06-13 11:44:43

2025-02-25 10:04:10

2021-09-10 16:24:00

框架AI開發(fā)

2024-08-20 13:40:06

2024-07-26 09:19:41

2023-09-25 10:04:37

模型AI

2023-03-15 17:59:07

2024-01-09 08:07:09

JSThreeJSCSS

2015-07-20 11:49:56

Wi-Fi

2021-11-26 18:37:39

技術(shù)人工智能計(jì)算機(jī)

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)