偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI"巧妙"發(fā)現(xiàn)無監(jiān)督情感神經(jīng)元,可利用文本檢測(cè)用戶情感

人工智能
4月7日消息,OpenAI在官網(wǎng)公布了一項(xiàng)最新的研究成果,介紹了一個(gè)可以高效學(xué)習(xí)情感表征的無監(jiān)督系統(tǒng),目前能夠預(yù)測(cè)亞馬遜評(píng)論中的下一個(gè)字符。

4月7日消息,OpenAI在官網(wǎng)公布了一項(xiàng)最新的研究成果,介紹了一個(gè)可以高效學(xué)習(xí)情感表征的無監(jiān)督系統(tǒng),目前能夠預(yù)測(cè)亞馬遜評(píng)論中的下一個(gè)字符。

研究人員采用了線性模型,在一個(gè)小型但是被廣泛采用的數(shù)據(jù)集(Standford Sentiment Treebank)上取得了非常高的情感分析準(zhǔn)確度:OpenAI得到的準(zhǔn)確度為91.8%,而之前最好的是90.2%。這一表現(xiàn)可以匹敵之前的監(jiān)督系統(tǒng),而且少用了30~100倍的標(biāo)記樣本。

此外OpenAI表示,其模型的表征還包含了一個(gè)獨(dú)立的“情感神經(jīng)元(sentiment neuron)”,這個(gè)“情感神經(jīng)元”包含了幾乎所有的情感信號(hào)。

OpenAI稱,“我們的系統(tǒng)在使用極少訓(xùn)練數(shù)據(jù)的情況下,比起其它同樣用Stanford Sentiment Treebank測(cè)試的系統(tǒng)有著更好的結(jié)果。”

OpenAI\"巧妙\"發(fā)現(xiàn)無監(jiān)督情感神經(jīng)元,可利用文本檢測(cè)用戶情感

為了達(dá)到完全監(jiān)督學(xué)習(xí)的效果,OpenAI的模型選取了兩個(gè)變量來代表標(biāo)記的樣本(綠色和藍(lán)色的線條),每一個(gè)變量訓(xùn)練6920個(gè)樣本(灰色虛線)。OpenAI的L1正則化模型(利用亞馬遜的用戶評(píng)論以無監(jiān)督的方式進(jìn)行預(yù)先訓(xùn)練)只用了11個(gè)標(biāo)記的樣本,其表現(xiàn)就能夠與多通道的CNN(卷積神經(jīng)網(wǎng)絡(luò))相匹敵,而使用了232個(gè)訓(xùn)練樣本之后,其性能甚至達(dá)到了非常先進(jìn)的CT-LSTM Ensembles的水平。

OpenAI稱,他們非常驚訝,因?yàn)槟P蛯W(xué)會(huì)了一個(gè)可以判斷的特征,除了預(yù)測(cè)亞馬遜用戶評(píng)論的下一個(gè)字符外,實(shí)際上還能引出情感的概念。OpenAI相信,這種現(xiàn)象不是這一模型所特有的,而是一些大型神經(jīng)網(wǎng)絡(luò)的一般性質(zhì)(共性),這些大型神經(jīng)網(wǎng)絡(luò)通常被訓(xùn)練用來預(yù)測(cè)輸入中的下一步驟或者下一維度。

訓(xùn)練方法

雷鋒網(wǎng)了解到,OpenAI首先利用亞馬遜上的8200萬條用戶評(píng)論,訓(xùn)練了一個(gè)有4096個(gè)單元的乘性LSTM(multiplicative LSTM,簡(jiǎn)稱mLSTM),來預(yù)測(cè)一小段文本中的下一個(gè)字符。團(tuán)隊(duì)采用了4塊英偉達(dá)的Pascal GPU,每小時(shí)能夠處理12500個(gè)字符,訓(xùn)練總共花了一個(gè)月的時(shí)間。

這4096個(gè)單元(其實(shí)是浮點(diǎn)數(shù)組成的向量)可以看成是模型讀取的字符串的特征向量。在訓(xùn)練mLSTM之后,OpenAI將這些單元進(jìn)行線性組合,通過現(xiàn)有的監(jiān)督數(shù)據(jù)學(xué)習(xí)組合的權(quán)重,將原本的模型變成了情感分類器。

情感神經(jīng)元

在用L1正則化訓(xùn)練線性模型的同時(shí),令人驚訝的是,OpenAI注意到它使用的學(xué)習(xí)單元其實(shí)非常少。進(jìn)一步挖掘后,研究人員意識(shí)到模型中實(shí)際上存在著一種可以精準(zhǔn)預(yù)測(cè)情緒值的“情感神經(jīng)元”。

OpenAI\"巧妙\"發(fā)現(xiàn)無監(jiān)督情感神經(jīng)元,可利用文本檢測(cè)用戶情感

盡管這一模型僅被訓(xùn)練用來預(yù)測(cè)文本中的下一個(gè)字符,但是模型中的情感神經(jīng)元卻可以將評(píng)論歸為負(fù)面或者正面兩類。

和其他類似的模型一樣,OpenAI的模型可以用來生成文本;但不同的地方在于,OpenAI可以通過重寫神經(jīng)元的值來控制合成文字的情感。

OpenAI\"巧妙\"發(fā)現(xiàn)無監(jiān)督情感神經(jīng)元,可利用文本檢測(cè)用戶情感

上圖是訓(xùn)練模型生成的合成文本的示例。研究人員先確定情感神經(jīng)元的值,然后從模型中隨機(jī)選擇樣本,以確定評(píng)論中的情感。如下圖所示,研究人員還通過模型傳遞前綴“I couldn’t figure out(我搞不清楚)”,然后只選擇高度相似的樣本。

OpenAI\"巧妙\"發(fā)現(xiàn)無監(jiān)督情感神經(jīng)元,可利用文本檢測(cè)用戶情感

示例

下圖表示情感神經(jīng)元代表的每個(gè)字符的值,紅色的為負(fù),綠色為正。其中“best(最好)”或者“horrendous(可怕的)”這樣有強(qiáng)烈指示性的詞語則會(huì)用更深的顏色重點(diǎn)標(biāo)記。

OpenAI\"巧妙\"發(fā)現(xiàn)無監(jiān)督情感神經(jīng)元,可利用文本檢測(cè)用戶情感

值得注意的是,在完成句子和短語之后,系統(tǒng)會(huì)進(jìn)行大量更新。例如,在“And about 99.8 percent of that got lost in the film”中,即使“in the film”本身沒有任何情緒內(nèi)容,但是在“lost”之后模型會(huì)進(jìn)行一次負(fù)面更新,而在句子結(jié)束后還會(huì)有一次大的更新。

無監(jiān)督學(xué)習(xí)

有標(biāo)記的數(shù)據(jù)是機(jī)器學(xué)習(xí)的燃料。收集數(shù)據(jù)很容易,但是想要大規(guī)模地標(biāo)記數(shù)據(jù)則很困難。只有在機(jī)器翻譯、語音識(shí)別或者自動(dòng)駕駛等具有切實(shí)效果和回報(bào)的領(lǐng)域,大規(guī)模地標(biāo)記數(shù)據(jù)才是切實(shí)可行的。

長(zhǎng)久以來,機(jī)器學(xué)習(xí)領(lǐng)域的研究人員一直夢(mèng)想著開發(fā)出能夠?qū)W習(xí)數(shù)據(jù)集的準(zhǔn)確表征的無監(jiān)督學(xué)習(xí)算法,希望用很少的標(biāo)記數(shù)據(jù)就能夠解決問題。OpenAI的研究意味著,在創(chuàng)建具有優(yōu)秀表征學(xué)習(xí)能力的系統(tǒng)時(shí),簡(jiǎn)單地利用大量數(shù)據(jù)訓(xùn)練大型無監(jiān)督下一步預(yù)測(cè)模型(next-step-prediction model)很可能是一種不錯(cuò)的方法。

下一步

OpenAI的研究成果代表通用無監(jiān)督表征學(xué)習(xí)又向前邁進(jìn)了一步。研究人員在探索是否可以通過語言建模來學(xué)習(xí)高質(zhì)量的表征時(shí)意外發(fā)現(xiàn)了這一結(jié)果,并在經(jīng)過仔細(xì)選擇的數(shù)據(jù)集上擴(kuò)大了這個(gè)現(xiàn)有模型。然而,目前研究人員還不清楚這個(gè)潛在的現(xiàn)象的具體成因。

這些結(jié)果在長(zhǎng)文檔的數(shù)據(jù)上的表現(xiàn)并不是很好。OpenAI猜測(cè),他們的模型難以記住數(shù)百乃至數(shù)千個(gè)時(shí)間步長(zhǎng)的信息。他們認(rèn)為,下一步可以嘗試采用層次模型(hierarchical model),因?yàn)閷哟文P涂梢宰赃m應(yīng)相應(yīng)的時(shí)間尺度。進(jìn)一步擴(kuò)展這些模型,還可能進(jìn)一步提高表征保真度( representation fidelity ),以及在情感分析和類似任務(wù)方面的表現(xiàn)。

當(dāng)輸入文本和評(píng)論數(shù)據(jù)的差別越大時(shí),該模型的表現(xiàn)就越差。值得驗(yàn)證的是,擴(kuò)展文本樣本的語料庫(kù)能否獲得適用于更廣泛領(lǐng)域的同等信息量的表征?

OpenAI的研究結(jié)果表明,大型的下一步預(yù)測(cè)模型能夠?qū)W會(huì)出色的無監(jiān)督表征。利用大規(guī)模的視頻集訓(xùn)練一個(gè)大型的神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)下一幀畫面,可能會(huì)得到對(duì)目標(biāo)、場(chǎng)景、動(dòng)作分類器的無監(jiān)督表征。

總的來說,理解模型、訓(xùn)練方式、以及數(shù)據(jù)集的屬性是很重要的,因?yàn)樗芸赡軙?huì)得到同樣出色的表征。

責(zé)任編輯:未麗燕 來源: 雷鋒網(wǎng)
相關(guān)推薦

2017-05-15 14:00:28

大數(shù)據(jù)Python情感極性分析

2017-12-20 09:52:50

2019-10-11 14:48:42

技術(shù)研發(fā)指標(biāo)

2017-03-21 10:55:22

大數(shù)據(jù)

2025-01-06 08:35:42

SVM機(jī)器學(xué)習(xí)人工智能

2016-11-16 15:05:42

情感分析

2021-10-20 10:51:57

AI 數(shù)據(jù)人工智能

2018-12-20 11:38:37

神經(jīng)元神經(jīng)網(wǎng)絡(luò)語言

2022-10-31 15:17:49

AI系統(tǒng)

2013-05-31 17:14:40

情感設(shè)計(jì)Android Des

2017-07-31 10:24:15

神經(jīng)網(wǎng)絡(luò)音樂

2023-09-24 22:49:55

PythonSnowNLP

2022-06-14 07:07:57

網(wǎng)絡(luò)威脅無監(jiān)督數(shù)據(jù)泄露

2021-12-26 22:57:57

Java開發(fā)深度學(xué)習(xí)

2018-09-04 11:45:31

前端JavaScriptNodeJS

2023-10-08 13:44:00

數(shù)據(jù)研究

2024-03-13 08:03:44

LLM人工智能技術(shù)

2020-10-13 09:33:28

AI神經(jīng)元人類

2017-07-12 10:44:31

CNNLSTMNLP

2023-05-10 17:33:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)