偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題

人工智能 深度學(xué)習(xí)
開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題摘要:圖像字幕是生成圖像的自然語(yǔ)言描述的過(guò)程。然而,大多數(shù)當(dāng)前的圖像字幕模型沒(méi)有考慮圖像的情感方面,這與其中表現(xiàn)的活動(dòng)和人際關(guān)系非常相關(guān)。

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題摘要:圖像字幕是生成圖像的自然語(yǔ)言描述的過(guò)程。然而,大多數(shù)當(dāng)前的圖像字幕模型沒(méi)有考慮圖像的情感方面,這與其中表現(xiàn)的活動(dòng)和人際關(guān)系非常相關(guān)。為了開(kāi)發(fā)一種可以生成包含這些人類(lèi)標(biāo)題的模型,我們使用從包括人臉在內(nèi)的圖像中提取的面部表情特征,旨在提高模型的描述能力。在這項(xiàng)工作中,我們提出了兩種Face-Cap模型,它以不同的方式嵌入面部表情特征,以生成圖像標(biāo)題。使用所有標(biāo)準(zhǔn)評(píng)估指標(biāo),我們的Face-Cap模型在應(yīng)用于從標(biāo)準(zhǔn)Flickr 30K數(shù)據(jù)集中提取的圖像標(biāo)題數(shù)據(jù)集時(shí),優(yōu)于用于生成圖像標(biāo)題的***進(jìn)基線(xiàn)模型,該數(shù)據(jù)集包含大約11K個(gè)包含面部的圖像。對(duì)字幕的分析發(fā)現(xiàn),令人驚訝的是,令人驚訝的是,字幕質(zhì)量的提高似乎并非來(lái)自添加與圖像的情感方面相關(guān)的形容詞,而是來(lái)自字幕中描述的行為的更多變化。

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題

 

習(xí)應(yīng)用于生成圖像標(biāo)題簡(jiǎn)介:圖像字幕系統(tǒng)旨在使用計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理來(lái)描述圖像的內(nèi)容。這在計(jì)算機(jī)視覺(jué)中是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)槲覀儾粌H要捕捉對(duì)象,還要捕捉它們之間的關(guān)系以及圖像中顯示的活動(dòng),以便生成有意義的描述。大多數(shù)***進(jìn)的方法,包括深度神經(jīng)網(wǎng)絡(luò),都會(huì)生成反映圖像事實(shí)方面的字幕[3,8,12,16,20,35,37];在這個(gè)過(guò)程中,通常會(huì)忽略能夠提供更豐富和更有吸引力的圖像標(biāo)題的情感方面。在設(shè)計(jì)智能系統(tǒng)以產(chǎn)生智能,適應(yīng)性和有效結(jié)果時(shí),需要包括識(shí)別和表達(dá)情感的情感屬性[22]。設(shè)計(jì)能夠識(shí)別情感并將其應(yīng)用于描述圖像的圖像字幕系統(tǒng)仍然是一個(gè)挑戰(zhàn)。

一些模型已將情緒或其他非事實(shí)信息納入圖像標(biāo)題[10,23,38];他們通常需要收集一個(gè)補(bǔ)充數(shù)據(jù)集,其中的情感詞匯來(lái)源于此,來(lái)自自然語(yǔ)言處理[25]的工作,其中情緒通常被描述為積極的,中立的或消極的。馬修斯等人。例如,[23]通過(guò)眾包構(gòu)建了一個(gè)情感圖像標(biāo)題數(shù)據(jù)集,其中要求說(shuō)話(huà)者使用固定詞匯包括正面情緒(例如可愛(ài)的貓)或負(fù)面情緒(例如陰險(xiǎn)的貓);他們的模型在這個(gè)和一套標(biāo)準(zhǔn)的事實(shí)標(biāo)題上進(jìn)行了訓(xùn)練。甘等人。 [10]提出了一個(gè)名為StyleNet的字幕模型,用于添加樣式,包括情感,以及事實(shí)標(biāo)題;他們指定了一組預(yù)定義的樣式,例如幽默或浪漫。

這些類(lèi)型的模型通常包含代表觀(guān)察者對(duì)圖像的情感的圖像描述(例如,對(duì)于圖像的正面看法而言,可愛(ài)的貓,對(duì)于負(fù)面的看法,則是陰險(xiǎn)的貓);它們并不旨在捕捉圖像的情感內(nèi)容,如圖1所示。這種區(qū)別已在情感分析文獻(xiàn)中得到認(rèn)可:例如,[24]的早期工作提出了一種用于預(yù)測(cè)情緒的圖論 - 理論方法。由文本作者表達(dá),首先刪除文本實(shí)際內(nèi)容中的正面或負(fù)面的文本片段(例如“主角試圖保護(hù)她的好名字”作為電影情節(jié)描述的一部分,哪里好具有積極的情緒)并且只留下反映作者主觀(guān)觀(guān)點(diǎn)的情感文本(例如“大膽,富有想象力,無(wú)法抗拒”)。在圖像的背景下,我們對(duì)與內(nèi)容相關(guān)的情感的概念感興趣。

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題

 

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題貢獻(xiàn):因此,在本文中,我們引入了一個(gè)圖像字幕模型,我們稱(chēng)之為Face-Cap,以結(jié)合圖像本身的情感內(nèi)容:我們自動(dòng)檢測(cè)人臉的情緒,并將衍生的面部表情特征應(yīng)用于生成圖像標(biāo)題。我們介紹了Face-Cap的兩種變體,它們以不同的方式使用這些特征來(lái)生成字幕。我們的工作貢獻(xiàn)是:

1.Face-Cap模型生成包含面部表情特征和情感內(nèi)容的字幕,既不使用情感圖像標(biāo)題配對(duì)數(shù)據(jù)也不使用難以收集的情緒標(biāo)題數(shù)據(jù)。據(jù)作者所知,這是***項(xiàng)在圖像字幕任務(wù)中應(yīng)用面部表情分析的研究。

2.一組實(shí)驗(yàn)證明,這些Face-Cap模型在所有標(biāo)準(zhǔn)評(píng)估指標(biāo)上都優(yōu)于基線(xiàn),這是一種***進(jìn)的模型。對(duì)生成的字幕的分析表明,它們通過(guò)更好地描述圖像中執(zhí)行的操作來(lái)改進(jìn)基線(xiàn)模型。

3.一個(gè)圖像標(biāo)題數(shù)據(jù)集,包括我們從Flickr 30K數(shù)據(jù)集[39]中提取的人臉,我們稱(chēng)之為FlickrFace11K。它是公開(kāi)的3,用于促進(jìn)該領(lǐng)域的未來(lái)研究。

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題

 

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題數(shù)據(jù)集:為了訓(xùn)練我們的面部表情識(shí)別模型,我們使用面部表情識(shí)別2013(FER-2013)數(shù)據(jù)集[11]。它包括野外樣本,幸福,悲傷,恐懼,驚訝,憤怒,厭惡和中立。它包含35,887個(gè)示例(28,709個(gè)用于培訓(xùn),3589個(gè)用于公開(kāi),3589個(gè)用于私人測(cè)試),通過(guò)Google搜索API收集。這些示例采用灰度級(jí),大小為48 x 48像素。在刪除11個(gè)完全黑色的示例后,我們將FER-2013的訓(xùn)練集分為兩個(gè)部分:25,109個(gè)用于訓(xùn)練,3589個(gè)用于驗(yàn)證模型。與該領(lǐng)域的其他工作[17,27,40]類(lèi)似,我們使用FER-2013的私人測(cè)試集進(jìn)行訓(xùn)練階段后模型的性能評(píng)估。為了與相關(guān)工作進(jìn)行比較,我們不會(huì)將公共測(cè)試集應(yīng)用于培訓(xùn)或驗(yàn)證模型。

為了訓(xùn)練我們的圖像字幕模型,我們提取了Flickr 30K數(shù)據(jù)集的一個(gè)子集,帶有圖像標(biāo)題[39],我們稱(chēng)之為FlickrFace11K。它包含11,696個(gè)例子,包括人臉,使用基于CNN的人臉檢測(cè)算法進(jìn)行檢測(cè)[18] .4我們觀(guān)察到Flickr 30K數(shù)據(jù)集是我們數(shù)據(jù)集的一個(gè)很好的來(lái)源,因?yàn)樗泻艽笠徊糠謽颖景ㄈ祟?lèi)與其他圖像標(biāo)題數(shù)據(jù)集(如COCO數(shù)據(jù)集[4])相比,這些面。我們將FlickrFace11K樣本分為8696個(gè)進(jìn)行培訓(xùn),2000個(gè)進(jìn)行驗(yàn)證,1000個(gè)進(jìn)行測(cè)試,并將其公之于眾.5為了提取樣本的面部特征,我們使用面部預(yù)處理步驟和面部表情識(shí)別模型如下。

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題Face預(yù)處理:由于我們的目標(biāo)是在FER-2013上訓(xùn)練面部表情識(shí)別模型并將其用作FlickrFace11K樣本的面部表情特征提取器,我們需要使樣本與FER-2013數(shù)據(jù)一致。為此,使用面部檢測(cè)器對(duì)FlickrFace11K的面進(jìn)行預(yù)處理。通過(guò)基于CNN的面部檢測(cè)算法檢測(cè)面部并從每個(gè)樣本裁剪。然后,我們將每個(gè)面轉(zhuǎn)換為灰度,并將其調(diào)整為48 x 48像素,這與FER-2013數(shù)據(jù)完全相同。

開(kāi)源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題結(jié)論和未來(lái)的工作:在本文中,我們提出了兩種圖像字幕模型,F(xiàn)ace-Cap,它采用面部特征來(lái)描述圖像。為此,應(yīng)用面部表情識(shí)別模型從包括人臉的圖像中提取特征。使用這些特征,我們的模型被告知圖像的情感內(nèi)容,以自動(dòng)調(diào)節(jié)圖像標(biāo)題的生成。與***進(jìn)的基線(xiàn)模型相比,我們已經(jīng)使用標(biāo)準(zhǔn)評(píng)估指標(biāo)顯示了模型的有效性。生成的標(biāo)題表明Face-Cap模型成功生成圖像標(biāo)題,并在適當(dāng)?shù)臅r(shí)間結(jié)合了面部特征。對(duì)字幕的語(yǔ)言分析表明,描述圖像內(nèi)容的有效性得到提高,表達(dá)的可變性更大。

未來(lái)的工作可能涉及設(shè)計(jì)新的面部表情識(shí)別模型,這可以涵蓋更豐富的情感,包括混亂和好奇;并有效地應(yīng)用其相應(yīng)的面部特征來(lái)生成圖像標(biāo)題。此外,我們希望探索注入面部情緒的替代架構(gòu),如[37]的軟注射方法。

代碼地址:github.com/omidmn/Face-Cap 

責(zé)任編輯:龐桂玉 來(lái)源: 今日頭條
相關(guān)推薦

2016-11-16 16:04:27

2023-06-26 17:37:54

人工智能AI

2023-10-18 06:49:06

人工智能API安全

2024-01-22 10:05:13

人工智能

2017-02-07 09:50:54

2020-10-21 14:48:00

機(jī)器學(xué)習(xí)人工智能數(shù)據(jù)中心

2020-07-16 11:15:22

人工智能信息安全數(shù)據(jù)安全

2018-06-04 10:39:39

人工智能深度學(xué)習(xí)

2021-03-30 13:45:00

人工智能

2022-11-25 07:35:57

PyTorchPython學(xué)習(xí)框架

2021-06-02 05:27:45

人工智能AI深度學(xué)習(xí)

2021-04-16 09:53:45

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2022-11-13 08:11:03

TensorFlow人工智能開(kāi)源

2022-05-12 09:00:00

人工智能面部識(shí)別智能監(jiān)控

2021-04-07 10:52:35

人工智能深度學(xué)習(xí)

2021-04-07 10:48:45

人工智能深度學(xué)習(xí)

2025-06-27 03:00:00

2019-03-04 21:46:59

人工智能面部識(shí)別AI

2017-03-18 16:28:40

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2021-02-22 10:59:43

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)