偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

人工智能與人類情感的交匯點:一致性評估方法的探索 精華

發(fā)布于 2024-10-16 16:01
瀏覽
0收藏

近來,人工智能(AI)的迅猛發(fā)展使其在情感生成和評估領(lǐng)域的應(yīng)用逐漸成為研究熱點。AI技術(shù)尤其是生成對抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs),在圖像生成方面取得了顯著進展。然而情感生成的復(fù)雜性和主觀性一直是一個挑戰(zhàn)。圖像能夠傳達情感,但情感體驗具有高度的個人主觀性,尤其是在通過AI生成圖像并試圖傳達特定情感時。

10 月 13 日arXiv 發(fā)表的論文《LEVEL OF AGREEMENT BETWEEN EMOTIONS GENERATED BY ARTIFICIAL INTELLIGENCE AND HUMAN EVALUATION: A METHODOLOGICAL PROPOSAL》提出核心問題在于評估人工智能生成的情緒與人類評估之間的一致性。具體而言,研究團隊旨在探討在生成性人工智能工具(如StyleGAN2-ADA)生成圖像的過程中,這些圖像所傳達的情感與人類對這些圖像的情感反應(yīng)之間是否存在顯著的一致性。這一問題的解決不僅可以驗證AI生成圖像的情感傳達效果,還可以為未來的AI情感生成和評估提供方法論依據(jù)。

研究的目標包括訓(xùn)練生成性人工智能模型,通過Artemis數(shù)據(jù)集生成具有特定情感的風(fēng)景圖像,并通過在線問卷收集人類對這些圖像的情感分類數(shù)據(jù)。隨后通過統(tǒng)計分析評估人類評估者之間、評估者與AI生成情感之間的一致性。這些分析將有助于深入了解AI生成情感的可靠性,并探索情感評估中的主觀性因素。

研究團隊由來自智利和西班牙的學(xué)者組成,他們分別在各自領(lǐng)域內(nèi)具有豐富的經(jīng)驗和知識。Miguel Carrasco和Raúl Dastres分別來自智利圣地亞哥的Adolfo Iba?ez大學(xué)工學(xué)院與科學(xué)學(xué)院,César González-Martín和Sonia Navajas-Torrente則分別來自西班牙科爾多瓦大學(xué)的教育科學(xué)與心理學(xué)學(xué)院、法學(xué)經(jīng)濟與商業(yè)學(xué)院。這樣一個多學(xué)科的團隊能夠從多個角度全面地研究和分析人工智能在情感生成和評估中的應(yīng)用。

他們的核心觀點:

  1. 藝術(shù)作品能夠傳達情感,但這種情感體驗具有高度的主觀性。
  2. 人工智能在藝術(shù)創(chuàng)作領(lǐng)域取得了顯著進展,特別是 StyleGAN2-ADA 在生成藝術(shù)作品方面的表現(xiàn)。
  3. 在情感分類上,人類評價者之間的一致性有限,這反映了情感評價的主觀性。
  4. AI 生成的畫作在二分類的情感認知上與人類評價者的一致性較好,特別是在識別負面情感時。
  5. 情感認知的一致性受到多種因素的影響,包括評價者的性別、文化背景、知識領(lǐng)域和教育水平。
  6. 研究提出了改進 AI 情感認知能力的未來方向,包括擴大數(shù)據(jù)集、多樣化評價者群體以及深入研究影響情感分類的視覺元素。
  7. AI 在藝術(shù)創(chuàng)作中的應(yīng)用 still faces challenges,尤其是在準確識別和生成情感化內(nèi)容方面。
  8. 統(tǒng)計分析是評估 AI 情感認知能力的關(guān)鍵工具,研究使用了多種統(tǒng)計方法來分析數(shù)據(jù)。

文獻綜述

在情感生成的理論背景中,圖像被認為是一種強有力的情感傳達工具。視覺藝術(shù)一直以來都通過顏色、形狀、紋理等元素來喚起觀眾的情感共鳴。隨著AI技術(shù)的發(fā)展,研究人員探索了如何通過計算模型實現(xiàn)這種情感傳達。StyleGAN2-ADA是其中一項重要的技術(shù)突破,它利用生成對抗網(wǎng)絡(luò)生成高質(zhì)量的藝術(shù)圖像,并能夠通過調(diào)整模型參數(shù)來傳達特定的情感。該技術(shù)的靈活性和生成圖像的真實性使其成為研究AI情感生成的重要工具。

然而,情感分類的復(fù)雜性和主觀性仍然是研究中的重大挑戰(zhàn)。情感體驗因人而異,不同個體對同一視覺刺激可能有完全不同的情感反應(yīng)。情感分類模型的設(shè)計需要考慮這一主觀性因素。目前,情感分類的方法主要分為離散情感模型和多維情感模型。離散情感模型,如Ekman的基礎(chǔ)情感理論,將情感分類為幾種基本類型,如快樂、憤怒、悲傷等。多維情感模型,如Russell的情感圓環(huán)理論,則通過情感的愉悅度、激活度等維度來描述情感狀態(tài)。這些模型各有優(yōu)缺點,離散模型在實際應(yīng)用中更具直觀性,但難以涵蓋復(fù)雜的情感體驗;多維模型能夠更細致地描述情感狀態(tài),但在實際應(yīng)用中較難操作。

在情感生成和評估的研究中,主觀性始終是需要克服的難題。不同個體的文化背景、生活經(jīng)歷、社會環(huán)境等因素都會影響其情感反應(yīng)。因此,研究人員在設(shè)計情感分類和生成模型時需要充分考慮這些因素,并通過廣泛的樣本數(shù)據(jù)和多樣化的評估方法來提高模型的泛化能力和準確性。通過不斷優(yōu)化和調(diào)整模型參數(shù),結(jié)合多種情感分類方法,研究人員希望能夠在情感生成和評估中取得更高的一致性和準確性。

這篇論文通過對StyleGAN2-ADA生成圖像與人類評估的一致性研究,揭示了情感生成技術(shù)的潛力和面臨的挑戰(zhàn)。研究結(jié)果不僅驗證了AI生成情感圖像的有效性,還為未來的情感生成和評估研究提供了寶貴的參考。

研究方法

通過系統(tǒng)而詳細的方法介紹,研究團隊展示了他們在數(shù)據(jù)選擇、預(yù)處理、圖像生成及人類評估過程中的縝密設(shè)計和嚴謹分析。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖1:生成神經(jīng)產(chǎn)生的情緒評估過程的總體方案。該方法包括三個階段:數(shù)據(jù)準備、建模和評估。

首先,數(shù)據(jù)準備階段是整個研究的基礎(chǔ)。研究團隊選擇了Artemis數(shù)據(jù)集和WikiArt數(shù)據(jù)集作為基礎(chǔ)數(shù)據(jù)源。Artemis數(shù)據(jù)集由WikiArt數(shù)據(jù)集中獲取的80,031條記錄組成,每條記錄包含藝術(shù)作品的藝術(shù)風(fēng)格、作品本身、注釋者聲明的情感、注釋者的解釋以及參與注釋的注釋者數(shù)量。研究團隊將重點放在與風(fēng)景類別相關(guān)的記錄上,這是因為風(fēng)景類圖像在情感傳達中具有更普遍的理解度和接受度。接著,數(shù)據(jù)預(yù)處理是關(guān)鍵一步。研究團隊必須確保每一條記錄的情感標簽準確無誤,并篩除掉那些沒有主要情感的記錄,以減少數(shù)據(jù)的噪音和干擾。最終研究團隊篩選出了9,750條有效記錄,為后續(xù)的圖像生成和情感分類奠定了堅實的基礎(chǔ)。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖2:生成網(wǎng)絡(luò)生成的情緒評估方法。在每個階段,都有多個子階段專門用于圖像開發(fā)和評估。

接下來是圖像生成與情感變體的設(shè)計。研究團隊選擇了StyleGAN2-ADA作為主要工具。StyleGAN2-ADA是一種基于生成對抗網(wǎng)絡(luò)(GANs)的圖像生成工具,能夠生成高質(zhì)量且真實感極強的圖像。為了生成符合研究需求的圖像,研究團隊首先對風(fēng)景圖像進行了預(yù)處理,將其大小調(diào)整為256x256像素,以確保與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程相兼容。在生成過程中,研究團隊生成了20幅基礎(chǔ)風(fēng)景圖像,并為每幅圖像創(chuàng)建了四種情感變體,分別為滿足、娛樂、恐懼和悲傷。這一過程不僅需要高度的技術(shù)支持,還需對情感表達的深刻理解和細致調(diào)整,確保每幅圖像都能準確傳達特定情感。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖3:StyleGAN2 ADA工具生成的藝術(shù)作品示例基于具有四個情感類別的景觀數(shù)據(jù)集。所有圖像都是全新的,訓(xùn)練集中沒有類似的圖像。

在人類評估階段,研究團隊設(shè)計并實施了一個詳細的在線問卷。問卷通過Google表單平臺發(fā)布,旨在收集參與者對生成圖像的情感分類數(shù)據(jù)。為了確保數(shù)據(jù)的廣泛性和多樣性,問卷在2023年10月30日至11月30日期間開放。參與者需為每幅隨機順序呈現(xiàn)的風(fēng)景圖像選擇一個情感類別(滿足、娛樂、恐懼、悲傷)。參與者的平均年齡為30歲,其中包括33名男性和28名女性,主要來自工程技術(shù)和社會科學(xué)領(lǐng)域,70%的參與者具有研究生或更高學(xué)歷。這些人口統(tǒng)計數(shù)據(jù)的收集和分析,不僅為研究提供了豐富的數(shù)據(jù)來源,也確保了結(jié)果的代表性和可靠性。整個研究方法的設(shè)計和實施展示了研究團隊在數(shù)據(jù)選擇、預(yù)處理、圖像生成以及人類評估方面的專業(yè)能力和科學(xué)嚴謹。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖4:研究參與者的社會人口學(xué)數(shù)據(jù):箱線圖年齡、性別男性、女性、國家、研究地區(qū)、獲得的最高研究水平。關(guān)于研究中使用的分組的更多信息將在結(jié)果部分進行回顧。

研究團隊將生成工具創(chuàng)建圖像的標簽作為參考,并將其與參與者的主要分類,即模式進行比較。因此,研究團隊根據(jù)Eser和Aksu的一項研究中使用多個一致性指數(shù)的建議,使用Cohen的Kappa系數(shù)Cohen來評估兩個評估者之間的一致性(AI模式)。與上一節(jié)中使用的Krippendorff的Alpha系數(shù)不同,Cohen的kappa系數(shù)只允許兩個評估者之間進行分析,因此在這種情況下,他們將使用生成工具生成圖像所使用的模式和情感標簽。通過這種方式,可以確定每張圖像-評估者和生成工具之間的一致性或一致性水平(見圖5中的過程示例)。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖5:mode和StyleGAN2 ADA工具之間的評估過程和協(xié)議。每個人對每張圖片進行投票。然后為每個圖像計算模式,以獲得每個圖像的代表性情感,并將其與生成工具生成的情感標簽進行比較。

另一方面,他們在這種新方法中提出了使用混淆矩陣,混淆矩陣通常用于評估分類模型的性能。該過程的目的是將參與者在圖像問卷中進行的分類與生成工具分配的標簽進行比較,將其分為四種情緒。為了構(gòu)建混淆矩陣,他們將真實類定義為由生成工具生成的類,將預(yù)測類定義為參與者的分類模式。還計算混淆矩陣的精確度、召回率和F1分數(shù)度量,以確定所獲得的預(yù)測水平,就像它是一個分類問題一樣。通過Fisher檢驗,研究團隊使用性別(男女)、知識領(lǐng)域(工程和技術(shù)-社會科學(xué))和教育水平(本科-研究生)作為細分變量,比較了不同群體從混淆矩陣中獲得的精確度和召回率指標。他們選擇比較這些群體,因為他們占受訪者的大多數(shù),為分析提供了一個具有代表性的樣本。此外利用Jaccard指數(shù),可以確定不同數(shù)據(jù)集之間暴露結(jié)果之間的交叉程度。

結(jié)果與分析

在本研究中,結(jié)果與分析部分重點探討了評估者之間的一致性以及參與者與AI生成情感之間的一致性,通過使用不同的統(tǒng)計方法進行了詳細分析。

首先,評估者之間的一致性是通過Krippendorff’s Alpha系數(shù)進行分析的。Krippendorff’s Alpha系數(shù)是一種用于評估多個評估者之間一致性的統(tǒng)計指標。在情感分類的過程中,不同評估者對同一圖像的情感評估可能會有差異。分析結(jié)果顯示,當情感分類為四種類別(滿足、娛樂、恐懼、悲傷)時,評估者之間的一致性較低。這表明,情感評估具有高度的主觀性,不同個體對同一圖像可能產(chǎn)生不同的情感反應(yīng)。然而,當情感分類簡化為兩類(正面和負面)時,評估者之間的一致性顯著提高。這一結(jié)果反映了情感評估中的復(fù)雜性和多樣性,同時也表明,簡化的情感分類可能更容易達成共識。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖6:與Jaccard的女性指數(shù)一致的百分比低于75%。

在參與者與AI生成情感的一致性分析中,研究團隊使用了Cohen’s Kappa系數(shù)和Jaccard指數(shù)。Cohen’s Kappa系數(shù)用于評估兩個評估者(在本研究中為參與者和AI生成的情感標簽)之間的一致性。Jaccard指數(shù)則用于衡量兩個集合之間的相似性,即參與者選擇的情感標簽與AI生成的情感標簽之間的重合程度。分析結(jié)果顯示,當情感分類為正面和負面時,參與者與AI之間的一致性較高,這與評估者之間的一致性結(jié)果一致。然而,當情感分類為四類時,一致性顯著降低。這表明,雖然AI在生成圖像時能夠傳達特定情感,但人類在評估這些情感時仍然存在較大的主觀差異。

值得注意的是,在分析正負情感分類與四類情感分類的一致性差異時,研究發(fā)現(xiàn),負面情感的分類一致性普遍高于正面情感。具體而言,參與者在評估負面情感(如恐懼和悲傷)時,與AI生成的情感標簽一致性較高,而在評估正面情感(如滿足和娛樂)時,一致性較低。這一發(fā)現(xiàn)可能反映出負面情感在視覺傳達中的直觀性更強,或者說負面情感更容易被不同個體一致識別。

通過這些分析,研究不僅揭示了AI生成情感與人類評估之間的一致性情況,還強調(diào)了情感評估中的主觀性挑戰(zhàn)。未來的研究可以進一步探討如何提高正面情感的分類一致性,優(yōu)化AI生成情感的準確性和表現(xiàn)力。此外,增加評估者樣本的多樣性,以及結(jié)合更多的圖像和情感類型,也將有助于更全面地理解和解決這一復(fù)雜問題。

討論

在這篇論文中,研究團隊探索了人工智能生成的情感與人類評估之間的一致性,揭示了情感分類中的諸多挑戰(zhàn)。特別是負面情感分類的一致性結(jié)果,展示了AI在傳達特定情感方面的潛力和局限性。我們重點討論這些發(fā)現(xiàn),并分析情感分類中存在的主觀性因素。

研究發(fā)現(xiàn),負面情感(如恐懼和悲傷)的分類一致性普遍高于正面情感(如滿足和娛樂)。這一現(xiàn)象可能有多方面的原因。首先,負面情感在視覺傳達中的直觀性較強,人類對負面情感的識別往往更迅速、更明確。負面情感通常伴隨著強烈的生理反應(yīng),如驚恐、悲傷等,這些反應(yīng)在視覺上容易捕捉和表達。因此參與者在面對負面情感圖像時,能夠更一致地識別和分類。

另一方面,正面情感的表達和識別則相對復(fù)雜。這可能是因為正面情感的表現(xiàn)形式更多樣,不同個體對正面情感的體驗和表達也存在差異。例如,滿足和娛樂這兩種情感之間的界限在某些情況下可能會模糊,人類在分類時容易受到自身情感體驗的影響。此外,正面情感的視覺特征可能不如負面情感那樣鮮明,從而增加了分類的難度和主觀性。

情感分類中的主觀性還受到多種因素的影響。文化背景、生活經(jīng)歷、社會環(huán)境等都會對個體的情感反應(yīng)產(chǎn)生影響。在本研究中,盡管參與者來自不同國家、擁有不同的教育背景和知識領(lǐng)域,但樣本規(guī)模和多樣性仍然存在局限性。例如,大多數(shù)參與者來自工程技術(shù)和社會科學(xué)領(lǐng)域,且70%具有研究生或更高學(xué)歷,這一特征可能影響了研究結(jié)果的代表性和廣泛性。

研究的局限性主要體現(xiàn)在樣本規(guī)模和評估者多樣性方面。樣本規(guī)模較小,且評估者主要集中在某些特定領(lǐng)域,限制了研究結(jié)果的泛化性。為了在未來研究中獲得更具代表性的結(jié)果,研究團隊建議擴大樣本規(guī)模,納入更多不同背景、年齡層和領(lǐng)域的參與者。此外當前研究僅限于風(fēng)景圖像,缺乏多樣化的視覺元素,未來可以結(jié)合更多類型的圖像,如人臉、情境圖等,以更全面地評估AI生成情感的準確性和一致性。

未來的研究方向還包括進一步優(yōu)化情感生成模型,提高正面情感的分類一致性。例如,研究可以探索結(jié)合多種情感分類方法,利用深度學(xué)習(xí)和大數(shù)據(jù)技術(shù),不斷調(diào)整和優(yōu)化模型參數(shù),以增強AI在情感傳達中的表現(xiàn)力。此外,研究團隊還建議深入分析影響情感分類決策的關(guān)鍵視覺元素,如顏色、形狀、紋理等,探索這些元素在情感表達中的作用,為未來的情感計算提供更豐富的理論支持。

通過這些改進和擴展,研究可以進一步推動AI在情感生成和評估領(lǐng)域的發(fā)展,使其在實際應(yīng)用中能夠更加有效地傳達和識別情感,滿足不同情境下的需求。這將為AI技術(shù)在情感計算、心理學(xué)、教育、醫(yī)療等領(lǐng)域的應(yīng)用帶來新的機遇和挑戰(zhàn)。(END)

參考資料:???https://arxiv.org/abs/2410.08332??

本文轉(zhuǎn)載自 ??大噬元獸??,作者: FlerkenS



收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦