偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="l95iv"><source id="l95iv"></source></rt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何用R進(jìn)行文本內(nèi)容的情感分析

作者：蔡捕頭 2016-11-16 15:05:42

大數(shù)據(jù)

一篇文章反映了什么態(tài)度?褒義還是貶義?肯定還是否定?喜怒哀樂(lè)愁，反映的是哪種情緒特征?對(duì)這些內(nèi)容的分析就是情感分析，或者叫情感傾向分析。情感傾向可認(rèn)為是主體對(duì)某一客體主觀存在的內(nèi)心喜惡，內(nèi)在評(píng)價(jià)的一種傾向。當(dāng)然，有正常閱讀能力的人，在看了一篇文章后能夠判斷文章的情感和極性，但這是主觀體驗(yàn)，不是量化數(shù)據(jù)。在對(duì)文章進(jìn)行分析的時(shí)候，通常需要進(jìn)行量化的分析，顯得更加直觀、客觀。

一、關(guān)于文本內(nèi)容的情感分析

一篇文章反映了什么態(tài)度?褒義還是貶義?肯定還是否定?喜怒哀樂(lè)愁，反映的是哪種情緒特征?對(duì)這些內(nèi)容的分析就是情感分析，或者叫情感傾向分析。情感傾向可認(rèn)為是主體對(duì)某一客體主觀存在的內(nèi)心喜惡，內(nèi)在評(píng)價(jià)的一種傾向。當(dāng)然，有正常閱讀能力的人，在看了一篇文章后能夠判斷文章的情感和極性，但這是主觀體驗(yàn)，不是量化數(shù)據(jù)。在對(duì)文章進(jìn)行分析的時(shí)候，通常需要進(jìn)行量化的分析，顯得更加直觀、客觀。

情感分析基本上有兩種方法，一種是極性分析，一種是情感類別分析。前者分析文章的總體態(tài)度是肯定還是否定，后者分析文章反映了喜怒哀樂(lè)愁中的哪種情感。

仍然以政府工作報(bào)告為例，這次是新鮮出爐的2015年度政府工作報(bào)告。

下面是這份報(bào)告的情感極性分析結(jié)果：

下面是這份報(bào)告的情感類別分析結(jié)果：

可以看出，政府工作報(bào)告在情感極性上，以正面情感為主，其次是中立情感，在情感類別上，以好的情感為主，其次是樂(lè)的情感。不愧是政府工作報(bào)告。

二、如何進(jìn)行文本內(nèi)容的情感分析

1、情感分析的2種方法

情感分析的方法主要分為兩類：一種是基于情感詞典的方法;一種是基于機(jī)器學(xué)習(xí)的方法。

基于情感詞典的方法，需要用到標(biāo)注好的情感詞典。這類詞典，英文多，中文少。不過(guò)還好，中文的也能夠找到幾個(gè)，包括①臺(tái)灣大學(xué)研發(fā)的中文情感極性詞典 NTUSD;②大連理工大學(xué)的情感本體詞匯;③知網(wǎng)發(fā)布”情感分析用詞語(yǔ)集(beta版)”;④哈工大信息檢索研究室開源的《同義詞詞林》可以用于情感詞典的擴(kuò)充。這幾個(gè)詞典各有特色，都是免費(fèi)，這點(diǎn)贊一個(gè)。

基于機(jī)器學(xué)習(xí)的方法，需要的材料就比較麻煩些，需要的是大量的人工標(biāo)注的語(yǔ)料作為訓(xùn)練集，通過(guò)提取文本特征，構(gòu)建分類器來(lái)實(shí)現(xiàn)情感的分類。比如要進(jìn)行情感極性的判斷，就需要幾百上千個(gè)反映正面情感的文章，和幾百上千個(gè)關(guān)于負(fù)面情感的文章;要進(jìn)行情感分類的判斷，那么每種情感都需要大量文章作為語(yǔ)料。實(shí)際上非常難辦到。如果能獲得分級(jí)的語(yǔ)料，就比較好辦，比如像豆瓣網(wǎng)的電影評(píng)論，每個(gè)評(píng)論都有對(duì)應(yīng)的星級(jí)，總共五個(gè)星級(jí)，每個(gè)星級(jí)對(duì)應(yīng)的評(píng)論集合就構(gòu)成了這一等級(jí)的語(yǔ)料。根據(jù)這些語(yǔ)料進(jìn)行機(jī)器學(xué)習(xí)，就能對(duì)新的評(píng)論，自動(dòng)進(jìn)行分級(jí)。機(jī)器學(xué)習(xí)最簡(jiǎn)單的方式是用樸素貝葉斯分類器進(jìn)行分類。

2、情感分析的算法

由于情感詞典比語(yǔ)料更容易獲取，所以用情感詞典進(jìn)行情感分析。算法就是思路，用情感詞典進(jìn)行分析，主要采用以下步驟進(jìn)行(以情感極性分析為例)：

①讀取情感詞典。獲得褒義詞列表、貶義詞列表、中性詞列表;獲得情感分類詞列表及其情感強(qiáng)度。
②處理要分析的文本。主要是讀取文本，按句子拆分，每個(gè)句子進(jìn)行分詞。
③計(jì)算句子的情感得分。查找句子中每個(gè)詞語(yǔ)的情感分類，讀取其情感強(qiáng)度，用正面情感得分減去負(fù)面情感得分，得到句子的情感總分。同時(shí)分別計(jì)算正面情感的總分和負(fù)面情感的總分，有中性情感的類似處理。需要注意的是，句子中有否定詞和程度副詞，會(huì)影響句子的情感走向和強(qiáng)度，比如”很不喜歡”，分解成”很不喜歡”，如果只計(jì)算喜歡就是錯(cuò)誤的，因?yàn)榍懊嬗?rdquo;不”，情感完全相反，還有個(gè)”很”說(shuō)明程度很強(qiáng)烈。因此還需要判斷是否有否定詞，如果有要反轉(zhuǎn)情感傾向，要檢查是否有程度副詞，如果有要進(jìn)行加權(quán)處理。所以，這里還需要一個(gè)《否定詞庫(kù)》和《程度副詞庫(kù)》，這兩個(gè)詞庫(kù)哪里找呢?google吧。
④計(jì)算文章的情感得分。所有句子的情感得分之和，就是整篇文章的情感得分。

三、R中如何進(jìn)行情感分析

①首先，需要加載以下的庫(kù)：

library(stringr) #對(duì)字符進(jìn)行操作
library(rJava) #分詞需要調(diào)用java
library(Rwordseg) #用于分詞
library(ggplot2) #用于展示圖形結(jié)果

②其次，需要讀取詞庫(kù)，讀取詞庫(kù)中的每一類情感詞表，用list的格式存儲(chǔ)。

③然后，讀取要分析的文本，按句子間隔，每句為一行，建立list。

③分詞。如何分詞在前面的文章中有介紹。

④匹配詞表，計(jì)算每句話的情感得分，再計(jì)算整篇文章的總分和各類情感的總分。

⑤根據(jù)結(jié)果繪圖。

以上談了思路，具體代碼略過(guò)。因?yàn)榇a還需要優(yōu)化，不太適合展示出來(lái)。

責(zé)任編輯：未麗燕來(lái)源：網(wǎng)絡(luò)大數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<dfn id="ntbvj"></dfn><nobr id="ntbvj"><strong id="ntbvj"></strong></nobr>

<menuitem id="ntbvj"><delect id="ntbvj"></delect></menuitem>