偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

提升生成式零樣本學(xué)習(xí)能力,視覺(jué)增強(qiáng)動(dòng)態(tài)語(yǔ)義原型方法入選CVPR 2024

人工智能 新聞
生成式零樣本學(xué)習(xí)(GZSL)是實(shí)現(xiàn)零樣本學(xué)習(xí)的一種有效方法。在生成式零樣本學(xué)習(xí)中,首先需要訓(xùn)練一個(gè)生成器來(lái)合成未見(jiàn)類(lèi)的視覺(jué)特征,這個(gè)生成過(guò)程是以前面提到的屬性標(biāo)簽等語(yǔ)義描述為條件驅(qū)動(dòng)的。

雖然我從來(lái)沒(méi)見(jiàn)過(guò)你,但是我有可能「認(rèn)識(shí)」你 —— 這是人們希望人工智能在「一眼初見(jiàn)」下達(dá)到的狀態(tài)。

為了達(dá)到這個(gè)目的,在傳統(tǒng)的圖像識(shí)別任務(wù)中,人們?cè)趲в胁煌?lèi)別標(biāo)簽的大量圖像樣本上訓(xùn)練算法模型,讓模型獲得對(duì)這些圖像的識(shí)別能力。而在零樣本學(xué)習(xí)(ZSL)任務(wù)中,人們希望模型能夠舉一反三,識(shí)別在訓(xùn)練階段沒(méi)有見(jiàn)過(guò)圖像樣本的類(lèi)別。

生成式零樣本學(xué)習(xí)(GZSL)是實(shí)現(xiàn)零樣本學(xué)習(xí)的一種有效方法。在生成式零樣本學(xué)習(xí)中,首先需要訓(xùn)練一個(gè)生成器來(lái)合成未見(jiàn)類(lèi)的視覺(jué)特征,這個(gè)生成過(guò)程是以前面提到的屬性標(biāo)簽等語(yǔ)義描述為條件驅(qū)動(dòng)的。有了生成的視覺(jué)特征作為樣本,就可以像訓(xùn)練傳統(tǒng)的分類(lèi)器一樣,訓(xùn)練出可以識(shí)別未見(jiàn)類(lèi)的分類(lèi)模型。

生成器的訓(xùn)練是生成式零樣本學(xué)習(xí)算法的關(guān)鍵,理想狀態(tài)下,生成器根據(jù)語(yǔ)義描述生成的某個(gè)未見(jiàn)類(lèi)的視覺(jué)特征樣本,應(yīng)與此類(lèi)別真實(shí)樣本的視覺(jué)特征具有相同的分布。

在現(xiàn)有的生成式零樣本學(xué)習(xí)方法中,生成器在被訓(xùn)練和使用時(shí),都是以高斯噪聲和類(lèi)別整體的語(yǔ)義描述為條件的,這限制了生成器只能針對(duì)整個(gè)類(lèi)別進(jìn)行優(yōu)化,而不是描述每個(gè)樣本實(shí)例,所以難以準(zhǔn)確反映真實(shí)樣本視覺(jué)特征的分布,導(dǎo)致模型的泛化性能較差。另外,已見(jiàn)類(lèi)與未見(jiàn)類(lèi)所共享的數(shù)據(jù)集視覺(jué)信息,即域知識(shí),也沒(méi)有在生成器的訓(xùn)練過(guò)程中被充分利用,限制了知識(shí)從已見(jiàn)類(lèi)到未見(jiàn)類(lèi)的遷移。

為了解決這些問(wèn)題,華中科技大學(xué)研究生與阿里巴巴旗下銀泰商業(yè)集團(tuán)的技術(shù)專(zhuān)家提出了視覺(jué)增強(qiáng)的動(dòng)態(tài)語(yǔ)義原型方法(稱(chēng)為 VADS),將已見(jiàn)類(lèi)的視覺(jué)特征更充分地引入到語(yǔ)義條件中,推動(dòng)生成器學(xué)習(xí)準(zhǔn)確的語(yǔ)義 - 視覺(jué)映射,研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已被計(jì)算機(jī)視覺(jué)頂級(jí)國(guó)際學(xué)術(shù)會(huì)議 CVPR 2024 接收。

具體而言,上述研究呈現(xiàn)了三個(gè)創(chuàng)新點(diǎn):

第一,研究使用視覺(jué)特征對(duì)生成器進(jìn)行增強(qiáng),來(lái)為零樣本學(xué)習(xí)中的未見(jiàn)類(lèi)生成可靠的視覺(jué)特征,在零樣本學(xué)習(xí)領(lǐng)域中是具有創(chuàng)新性的方法。

第二,研究提出了 VDKL 和 VOSU 兩個(gè)組件,有效地獲取數(shù)據(jù)集的視覺(jué)先驗(yàn)并用圖像的視覺(jué)特征動(dòng)態(tài)更新預(yù)定義好的類(lèi)別語(yǔ)義描述,從而有效地實(shí)現(xiàn)了對(duì)視覺(jué)特征的利用。

第三,從試驗(yàn)結(jié)果上看,本研究使用視覺(jué)特征對(duì)生成器進(jìn)行增強(qiáng)的效果顯著,而且作為一個(gè)即插即用的方法,具有較強(qiáng)的通用性。

研究細(xì)節(jié)

VADS 由兩個(gè)模塊組成:(1)視覺(jué)感知域知識(shí)學(xué)習(xí)模塊(VDKL)學(xué)習(xí)視覺(jué)特征的局部偏差和全局先驗(yàn),即域視覺(jué)知識(shí),這些知識(shí)取代了純高斯噪聲,提供了更豐富的先驗(yàn)噪聲信息;(2)面向視覺(jué)的語(yǔ)義更新模塊(VOSU)學(xué)習(xí)如何根據(jù)樣本的視覺(jué)表示更新其語(yǔ)義原型,更新的后語(yǔ)義原型中也包含了域視覺(jué)知識(shí)。

最終,研究團(tuán)隊(duì)將兩個(gè)模塊的輸出連接為一個(gè)動(dòng)態(tài)語(yǔ)義原型向量,作為生成器的條件。大量實(shí)驗(yàn)表明,VADS 方法在常用的零樣本學(xué)習(xí)數(shù)據(jù)集上實(shí)現(xiàn)了顯著超出已有方法的性能,并可以與其他生成式零樣本學(xué)習(xí)方法結(jié)合,獲得精度的普遍提升。

在視覺(jué)感知域知識(shí)學(xué)習(xí)模塊(VDKL)中,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺(jué)編碼器(VE)和一個(gè)域知識(shí)學(xué)習(xí)網(wǎng)絡(luò)(DKL)。其中,VE 將視覺(jué)特征編碼為隱特征和隱編碼。通過(guò)使用對(duì)比損失在生成器訓(xùn)練階段利用已見(jiàn)類(lèi)圖像樣本訓(xùn)練 VE,VE 可以增強(qiáng)視覺(jué)特征的類(lèi)別可分性。

在訓(xùn)練 ZSL 分類(lèi)器時(shí),生成器生成的未見(jiàn)類(lèi)視覺(jué)特征也被輸入 VE,得到的隱特征與生成的視覺(jué)特征連接,作為最終的視覺(jué)特征樣本。VE 的另一個(gè)輸出,即隱編碼,經(jīng)過(guò) DKL 變換后形成局部偏差 b,與可學(xué)習(xí)的全局先驗(yàn) p,以及隨機(jī)高斯噪聲一起,組合成域相關(guān)的視覺(jué)先驗(yàn)噪聲,代替其他生成式零樣本學(xué)習(xí)中常用的純高斯噪聲,作為生成器生成條件的一部分。

在面向視覺(jué)的語(yǔ)義更新模塊(VOSU)中,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺(jué)語(yǔ)義預(yù)測(cè)器 VSP 和一個(gè)語(yǔ)義更新映射網(wǎng)絡(luò) SUM。在 VOSU 的訓(xùn)練階段,VSP 以圖像視覺(jué)特征為輸入,生成一個(gè)能夠捕獲目標(biāo)圖像視覺(jué)模式的預(yù)測(cè)語(yǔ)義向量,同時(shí),SUM 以類(lèi)別語(yǔ)義原型為輸入,對(duì)其進(jìn)行更新,得到更新后的語(yǔ)義原型,然后通過(guò)最小化預(yù)測(cè)語(yǔ)義向量與更新后語(yǔ)義原型之間的交叉熵?fù)p失對(duì) VSP 和 SUM 進(jìn)行訓(xùn)練。VOSU 模塊可以基于視覺(jué)特征對(duì)語(yǔ)義原型進(jìn)行動(dòng)態(tài)調(diào)整,使得生成器在合成新類(lèi)別特征時(shí)能夠依據(jù)更精確的實(shí)例級(jí)語(yǔ)義信息。

在試驗(yàn)部分,上述研究使用了學(xué)術(shù)界常用的三個(gè) ZSL 數(shù)據(jù)集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),對(duì)傳統(tǒng)零樣本學(xué)習(xí)和廣義零樣本學(xué)習(xí)的主要指標(biāo),與近期有代表性的其他方法進(jìn)行了全面對(duì)比。

在傳統(tǒng)零樣本學(xué)習(xí)的 Acc 指標(biāo)方面,該研究的方法與已有方法相比,取得了明顯的精度提升,在三個(gè)數(shù)據(jù)集上分別領(lǐng)先 8.4%,10.3% 和 8.4%。在廣義零樣本學(xué)習(xí)場(chǎng)景,上述研究方法在未見(jiàn)類(lèi)和已見(jiàn)類(lèi)精度的調(diào)和平均值指標(biāo) H 上也處于領(lǐng)先地位。

VADS 方法還可以與其他生成式零樣本學(xué)習(xí)方法結(jié)合。例如,與 CLSWGAN,TF-VAEGAN 和 FREE 這三種方法結(jié)合后,在三個(gè)數(shù)據(jù)集上的 Acc 和 H 指標(biāo)均有明顯提升,三個(gè)數(shù)據(jù)集的平均提升幅度為 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。

圖片

通過(guò)對(duì)生成器生成的視覺(jué)特征進(jìn)行可視化可以看出,原本混淆在一起的部分類(lèi)別的特征,例如下圖 (b) 中顯示的已見(jiàn)類(lèi)「Yellow breasted Chat」和未見(jiàn)類(lèi)「Yellowthroat」兩類(lèi)特征,在使用 VADS 方法后,在圖(c)中能夠被明顯地分離為兩個(gè)類(lèi)簇,從而避免了分類(lèi)器訓(xùn)練時(shí)的混淆。

可延展到智能安防和大模型領(lǐng)域

機(jī)器之心了解到,上述研究研究團(tuán)隊(duì)關(guān)注的零樣本學(xué)習(xí)旨在使模型能夠識(shí)別在訓(xùn)練階段沒(méi)有圖像樣本的新類(lèi)別,在智能安防領(lǐng)域具有潛在的價(jià)值。

第一,處理安防場(chǎng)景中新出現(xiàn)的風(fēng)險(xiǎn),由于安防場(chǎng)景下,會(huì)不斷出現(xiàn)新的威脅類(lèi)型或不尋常的行為模式,它們可能在之前的訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)。零樣本學(xué)習(xí)使安防系統(tǒng)能快速識(shí)別和響應(yīng)新風(fēng)險(xiǎn)類(lèi)型,從而提高安全性。

第二,減少對(duì)樣本數(shù)據(jù)的依賴(lài):獲取足夠的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練有效的安防系統(tǒng)是昂貴和耗時(shí)的,零樣本學(xué)習(xí)減少了系統(tǒng)對(duì)大量圖像樣本的依賴(lài),從而節(jié)約了研發(fā)成本。

第三,提升動(dòng)態(tài)環(huán)境下的穩(wěn)定性:零樣本學(xué)習(xí)使用語(yǔ)義描述實(shí)現(xiàn)對(duì)未見(jiàn)類(lèi)模式的識(shí)別,與完全依賴(lài)圖像特征的傳統(tǒng)方法相比,對(duì)于視覺(jué)環(huán)境的變化天然具有更強(qiáng)的穩(wěn)定性。

該技術(shù)作為解決圖像分類(lèi)問(wèn)題的底層技術(shù),還可以在依賴(lài)視覺(jué)分類(lèi)技術(shù)的場(chǎng)景落地,例如人、貨、車(chē)、物的屬性識(shí)別,行為識(shí)別等。尤其在需要快速增加新的待識(shí)別類(lèi)別,來(lái)不及收集訓(xùn)練樣本,或者難以收集大量樣本的場(chǎng)景(如風(fēng)險(xiǎn)識(shí)別),零樣本學(xué)習(xí)技術(shù)相對(duì)于傳統(tǒng)方法具有較大優(yōu)勢(shì)。

該研究技術(shù)對(duì)于當(dāng)前大模型的發(fā)展有無(wú)借鑒之處?

研究者認(rèn)為,生成式零樣本學(xué)習(xí)的核心思想是對(duì)齊語(yǔ)義空間和視覺(jué)特征空間,這與當(dāng)前多模態(tài)大模型中的視覺(jué)語(yǔ)言模型(如 CLIP)的研究目標(biāo)是一致的。

它們最大的不同點(diǎn)是,生成式零樣本學(xué)習(xí)是在預(yù)先定義好的有限類(lèi)別的數(shù)據(jù)集上訓(xùn)練和使用,而視覺(jué)語(yǔ)言大模型則是通過(guò)對(duì)大數(shù)據(jù)的學(xué)習(xí)獲得具有通用性的語(yǔ)義和視覺(jué)表征能力,不局限在有限的類(lèi)別,作為基礎(chǔ)模型,具有更寬廣的應(yīng)用范圍。

如果技術(shù)的應(yīng)用場(chǎng)景是特定領(lǐng)域,可以選擇將大模型針對(duì)此領(lǐng)域進(jìn)行適配微調(diào),在此過(guò)程中,與本文相同或相似研究方向的工作,理論上可以帶來(lái)一些有益的啟發(fā)。

作者介紹

侯文金,華中科技大學(xué)碩士研究生,感興趣的研究方向包括計(jì)算機(jī)視覺(jué),生成建模,少樣本學(xué)習(xí)等,他在阿里巴巴 - 銀泰商業(yè)實(shí)習(xí)期間完成了本論文工作。

王炎,阿里巴巴 - 銀泰商業(yè)技術(shù)總監(jiān),深象智能團(tuán)隊(duì)算法負(fù)責(zé)人。

馮雪濤,阿里巴巴 - 銀泰商業(yè)資深算法專(zhuān)家,主要關(guān)注視覺(jué)和多模態(tài)算法在線下零售等行業(yè)的應(yīng)用落地。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-06-25 09:35:04

模型訓(xùn)練

2025-02-06 11:25:50

2024-09-12 08:00:00

2025-03-24 13:32:43

2023-07-12 09:00:00

自動(dòng)語(yǔ)音識(shí)別機(jī)器學(xué)習(xí)

2025-02-08 11:12:34

ZAPS影像模型

2025-02-07 10:10:05

MusicMagus擴(kuò)散模型音樂(lè)編輯

2024-08-28 14:20:00

數(shù)據(jù)模型

2024-11-20 16:51:00

目標(biāo)檢測(cè)模型

2023-02-24 10:22:15

2022-06-27 14:49:30

代碼機(jī)器學(xué)習(xí)

2021-10-25 09:06:29

模型人工智能計(jì)算

2021-09-13 17:20:01

大數(shù)據(jù)AI人工智能

2021-07-24 10:19:14

AI 數(shù)據(jù)克隆

2024-11-18 08:40:00

2024-07-31 14:06:00

2023-03-06 16:17:13

2024-09-20 09:37:31

2025-06-24 13:52:38

LLM模型AI

2025-09-16 12:49:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)