偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="lsbgf"></button>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

提升生成式零樣本學(xué)習(xí)能力，視覺(jué)增強(qiáng)動(dòng)態(tài)語(yǔ)義原型方法入選CVPR 2024

作者：機(jī)器之心 2024-03-15 12:49:40

人工智能新聞

生成式零樣本學(xué)習(xí)（GZSL）是實(shí)現(xiàn)零樣本學(xué)習(xí)的一種有效方法。在生成式零樣本學(xué)習(xí)中，首先需要訓(xùn)練一個(gè)生成器來(lái)合成未見(jiàn)類(lèi)的視覺(jué)特征，這個(gè)生成過(guò)程是以前面提到的屬性標(biāo)簽等語(yǔ)義描述為條件驅(qū)動(dòng)的。

雖然我從來(lái)沒(méi)見(jiàn)過(guò)你，但是我有可能「認(rèn)識(shí)」你 —— 這是人們希望人工智能在「一眼初見(jiàn)」下達(dá)到的狀態(tài)。

為了達(dá)到這個(gè)目的，在傳統(tǒng)的圖像識(shí)別任務(wù)中，人們?cè)趲в胁煌?lèi)別標(biāo)簽的大量圖像樣本上訓(xùn)練算法模型，讓模型獲得對(duì)這些圖像的識(shí)別能力。而在零樣本學(xué)習(xí)（ZSL）任務(wù)中，人們希望模型能夠舉一反三，識(shí)別在訓(xùn)練階段沒(méi)有見(jiàn)過(guò)圖像樣本的類(lèi)別。

生成式零樣本學(xué)習(xí)（GZSL）是實(shí)現(xiàn)零樣本學(xué)習(xí)的一種有效方法。在生成式零樣本學(xué)習(xí)中，首先需要訓(xùn)練一個(gè)生成器來(lái)合成未見(jiàn)類(lèi)的視覺(jué)特征，這個(gè)生成過(guò)程是以前面提到的屬性標(biāo)簽等語(yǔ)義描述為條件驅(qū)動(dòng)的。有了生成的視覺(jué)特征作為樣本，就可以像訓(xùn)練傳統(tǒng)的分類(lèi)器一樣，訓(xùn)練出可以識(shí)別未見(jiàn)類(lèi)的分類(lèi)模型。

生成器的訓(xùn)練是生成式零樣本學(xué)習(xí)算法的關(guān)鍵，理想狀態(tài)下，生成器根據(jù)語(yǔ)義描述生成的某個(gè)未見(jiàn)類(lèi)的視覺(jué)特征樣本，應(yīng)與此類(lèi)別真實(shí)樣本的視覺(jué)特征具有相同的分布。

在現(xiàn)有的生成式零樣本學(xué)習(xí)方法中，生成器在被訓(xùn)練和使用時(shí)，都是以高斯噪聲和類(lèi)別整體的語(yǔ)義描述為條件的，這限制了生成器只能針對(duì)整個(gè)類(lèi)別進(jìn)行優(yōu)化，而不是描述每個(gè)樣本實(shí)例，所以難以準(zhǔn)確反映真實(shí)樣本視覺(jué)特征的分布，導(dǎo)致模型的泛化性能較差。另外，已見(jiàn)類(lèi)與未見(jiàn)類(lèi)所共享的數(shù)據(jù)集視覺(jué)信息，即域知識(shí)，也沒(méi)有在生成器的訓(xùn)練過(guò)程中被充分利用，限制了知識(shí)從已見(jiàn)類(lèi)到未見(jiàn)類(lèi)的遷移。

為了解決這些問(wèn)題，華中科技大學(xué)研究生與阿里巴巴旗下銀泰商業(yè)集團(tuán)的技術(shù)專(zhuān)家提出了視覺(jué)增強(qiáng)的動(dòng)態(tài)語(yǔ)義原型方法（稱(chēng)為 VADS），將已見(jiàn)類(lèi)的視覺(jué)特征更充分地引入到語(yǔ)義條件中，推動(dòng)生成器學(xué)習(xí)準(zhǔn)確的語(yǔ)義 - 視覺(jué)映射，研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已被計(jì)算機(jī)視覺(jué)頂級(jí)國(guó)際學(xué)術(shù)會(huì)議 CVPR 2024 接收。

具體而言，上述研究呈現(xiàn)了三個(gè)創(chuàng)新點(diǎn)：

第一，研究使用視覺(jué)特征對(duì)生成器進(jìn)行增強(qiáng)，來(lái)為零樣本學(xué)習(xí)中的未見(jiàn)類(lèi)生成可靠的視覺(jué)特征，在零樣本學(xué)習(xí)領(lǐng)域中是具有創(chuàng)新性的方法。

第二，研究提出了 VDKL 和 VOSU 兩個(gè)組件，有效地獲取數(shù)據(jù)集的視覺(jué)先驗(yàn)并用圖像的視覺(jué)特征動(dòng)態(tài)更新預(yù)定義好的類(lèi)別語(yǔ)義描述，從而有效地實(shí)現(xiàn)了對(duì)視覺(jué)特征的利用。

第三，從試驗(yàn)結(jié)果上看，本研究使用視覺(jué)特征對(duì)生成器進(jìn)行增強(qiáng)的效果顯著，而且作為一個(gè)即插即用的方法，具有較強(qiáng)的通用性。

研究細(xì)節(jié)

VADS 由兩個(gè)模塊組成：（1）視覺(jué)感知域知識(shí)學(xué)習(xí)模塊（VDKL）學(xué)習(xí)視覺(jué)特征的局部偏差和全局先驗(yàn)，即域視覺(jué)知識(shí)，這些知識(shí)取代了純高斯噪聲，提供了更豐富的先驗(yàn)噪聲信息；（2）面向視覺(jué)的語(yǔ)義更新模塊（VOSU）學(xué)習(xí)如何根據(jù)樣本的視覺(jué)表示更新其語(yǔ)義原型，更新的后語(yǔ)義原型中也包含了域視覺(jué)知識(shí)。

最終，研究團(tuán)隊(duì)將兩個(gè)模塊的輸出連接為一個(gè)動(dòng)態(tài)語(yǔ)義原型向量，作為生成器的條件。大量實(shí)驗(yàn)表明，VADS 方法在常用的零樣本學(xué)習(xí)數(shù)據(jù)集上實(shí)現(xiàn)了顯著超出已有方法的性能，并可以與其他生成式零樣本學(xué)習(xí)方法結(jié)合，獲得精度的普遍提升。

在視覺(jué)感知域知識(shí)學(xué)習(xí)模塊（VDKL）中，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺(jué)編碼器（VE）和一個(gè)域知識(shí)學(xué)習(xí)網(wǎng)絡(luò)（DKL）。其中，VE 將視覺(jué)特征編碼為隱特征和隱編碼。通過(guò)使用對(duì)比損失在生成器訓(xùn)練階段利用已見(jiàn)類(lèi)圖像樣本訓(xùn)練 VE，VE 可以增強(qiáng)視覺(jué)特征的類(lèi)別可分性。

在訓(xùn)練 ZSL 分類(lèi)器時(shí)，生成器生成的未見(jiàn)類(lèi)視覺(jué)特征也被輸入 VE，得到的隱特征與生成的視覺(jué)特征連接，作為最終的視覺(jué)特征樣本。VE 的另一個(gè)輸出，即隱編碼，經(jīng)過(guò) DKL 變換后形成局部偏差 b，與可學(xué)習(xí)的全局先驗(yàn) p，以及隨機(jī)高斯噪聲一起，組合成域相關(guān)的視覺(jué)先驗(yàn)噪聲，代替其他生成式零樣本學(xué)習(xí)中常用的純高斯噪聲，作為生成器生成條件的一部分。

在面向視覺(jué)的語(yǔ)義更新模塊（VOSU）中，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺(jué)語(yǔ)義預(yù)測(cè)器 VSP 和一個(gè)語(yǔ)義更新映射網(wǎng)絡(luò) SUM。在 VOSU 的訓(xùn)練階段，VSP 以圖像視覺(jué)特征為輸入，生成一個(gè)能夠捕獲目標(biāo)圖像視覺(jué)模式的預(yù)測(cè)語(yǔ)義向量，同時(shí)，SUM 以類(lèi)別語(yǔ)義原型為輸入，對(duì)其進(jìn)行更新，得到更新后的語(yǔ)義原型，然后通過(guò)最小化預(yù)測(cè)語(yǔ)義向量與更新后語(yǔ)義原型之間的交叉熵?fù)p失對(duì) VSP 和 SUM 進(jìn)行訓(xùn)練。VOSU 模塊可以基于視覺(jué)特征對(duì)語(yǔ)義原型進(jìn)行動(dòng)態(tài)調(diào)整，使得生成器在合成新類(lèi)別特征時(shí)能夠依據(jù)更精確的實(shí)例級(jí)語(yǔ)義信息。

在試驗(yàn)部分，上述研究使用了學(xué)術(shù)界常用的三個(gè) ZSL 數(shù)據(jù)集：Animals with Attributes 2（AWA2），SUN Attribute（SUN）和 Caltech-USCD Birds-200-2011（CUB），對(duì)傳統(tǒng)零樣本學(xué)習(xí)和廣義零樣本學(xué)習(xí)的主要指標(biāo)，與近期有代表性的其他方法進(jìn)行了全面對(duì)比。

在傳統(tǒng)零樣本學(xué)習(xí)的 Acc 指標(biāo)方面，該研究的方法與已有方法相比，取得了明顯的精度提升，在三個(gè)數(shù)據(jù)集上分別領(lǐng)先 8.4%，10.3% 和 8.4%。在廣義零樣本學(xué)習(xí)場(chǎng)景，上述研究方法在未見(jiàn)類(lèi)和已見(jiàn)類(lèi)精度的調(diào)和平均值指標(biāo) H 上也處于領(lǐng)先地位。

VADS 方法還可以與其他生成式零樣本學(xué)習(xí)方法結(jié)合。例如，與 CLSWGAN，TF-VAEGAN 和 FREE 這三種方法結(jié)合后，在三個(gè)數(shù)據(jù)集上的 Acc 和 H 指標(biāo)均有明顯提升，三個(gè)數(shù)據(jù)集的平均提升幅度為 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。

通過(guò)對(duì)生成器生成的視覺(jué)特征進(jìn)行可視化可以看出，原本混淆在一起的部分類(lèi)別的特征，例如下圖 (b) 中顯示的已見(jiàn)類(lèi)「Yellow breasted Chat」和未見(jiàn)類(lèi)「Yellowthroat」兩類(lèi)特征，在使用 VADS 方法后，在圖（c）中能夠被明顯地分離為兩個(gè)類(lèi)簇，從而避免了分類(lèi)器訓(xùn)練時(shí)的混淆。

可延展到智能安防和大模型領(lǐng)域

機(jī)器之心了解到，上述研究研究團(tuán)隊(duì)關(guān)注的零樣本學(xué)習(xí)旨在使模型能夠識(shí)別在訓(xùn)練階段沒(méi)有圖像樣本的新類(lèi)別，在智能安防領(lǐng)域具有潛在的價(jià)值。

第一，處理安防場(chǎng)景中新出現(xiàn)的風(fēng)險(xiǎn)，由于安防場(chǎng)景下，會(huì)不斷出現(xiàn)新的威脅類(lèi)型或不尋常的行為模式，它們可能在之前的訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)。零樣本學(xué)習(xí)使安防系統(tǒng)能快速識(shí)別和響應(yīng)新風(fēng)險(xiǎn)類(lèi)型，從而提高安全性。

第二，減少對(duì)樣本數(shù)據(jù)的依賴(lài)：獲取足夠的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練有效的安防系統(tǒng)是昂貴和耗時(shí)的，零樣本學(xué)習(xí)減少了系統(tǒng)對(duì)大量圖像樣本的依賴(lài)，從而節(jié)約了研發(fā)成本。

第三，提升動(dòng)態(tài)環(huán)境下的穩(wěn)定性：零樣本學(xué)習(xí)使用語(yǔ)義描述實(shí)現(xiàn)對(duì)未見(jiàn)類(lèi)模式的識(shí)別，與完全依賴(lài)圖像特征的傳統(tǒng)方法相比，對(duì)于視覺(jué)環(huán)境的變化天然具有更強(qiáng)的穩(wěn)定性。

該技術(shù)作為解決圖像分類(lèi)問(wèn)題的底層技術(shù)，還可以在依賴(lài)視覺(jué)分類(lèi)技術(shù)的場(chǎng)景落地，例如人、貨、車(chē)、物的屬性識(shí)別，行為識(shí)別等。尤其在需要快速增加新的待識(shí)別類(lèi)別，來(lái)不及收集訓(xùn)練樣本，或者難以收集大量樣本的場(chǎng)景（如風(fēng)險(xiǎn)識(shí)別），零樣本學(xué)習(xí)技術(shù)相對(duì)于傳統(tǒng)方法具有較大優(yōu)勢(shì)。

該研究技術(shù)對(duì)于當(dāng)前大模型的發(fā)展有無(wú)借鑒之處？

研究者認(rèn)為，生成式零樣本學(xué)習(xí)的核心思想是對(duì)齊語(yǔ)義空間和視覺(jué)特征空間，這與當(dāng)前多模態(tài)大模型中的視覺(jué)語(yǔ)言模型（如 CLIP）的研究目標(biāo)是一致的。

它們最大的不同點(diǎn)是，生成式零樣本學(xué)習(xí)是在預(yù)先定義好的有限類(lèi)別的數(shù)據(jù)集上訓(xùn)練和使用，而視覺(jué)語(yǔ)言大模型則是通過(guò)對(duì)大數(shù)據(jù)的學(xué)習(xí)獲得具有通用性的語(yǔ)義和視覺(jué)表征能力，不局限在有限的類(lèi)別，作為基礎(chǔ)模型，具有更寬廣的應(yīng)用范圍。

如果技術(shù)的應(yīng)用場(chǎng)景是特定領(lǐng)域，可以選擇將大模型針對(duì)此領(lǐng)域進(jìn)行適配微調(diào)，在此過(guò)程中，與本文相同或相似研究方向的工作，理論上可以帶來(lái)一些有益的啟發(fā)。

作者介紹

侯文金，華中科技大學(xué)碩士研究生，感興趣的研究方向包括計(jì)算機(jī)視覺(jué)，生成建模，少樣本學(xué)習(xí)等，他在阿里巴巴 - 銀泰商業(yè)實(shí)習(xí)期間完成了本論文工作。

王炎，阿里巴巴 - 銀泰商業(yè)技術(shù)總監(jiān)，深象智能團(tuán)隊(duì)算法負(fù)責(zé)人。

馮雪濤，阿里巴巴 - 銀泰商業(yè)資深算法專(zhuān)家，主要關(guān)注視覺(jué)和多模態(tài)算法在線下零售等行業(yè)的應(yīng)用落地。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tr id="jgyvy"></tr>

<mark id="jgyvy"><tfoot id="jgyvy"></tfoot></mark>