WOT2016黃偉:基于深度學習的情感分析
原創(chuàng)【51CTO.com原創(chuàng)稿件】WOT2016大數(shù)據(jù)峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數(shù)十位大數(shù)據(jù)領(lǐng)域一線專家、數(shù)據(jù)技術(shù)先行者將齊聚現(xiàn)場,在圍繞機器學習、實時計算、系統(tǒng)架構(gòu)、NoSQL技術(shù)實踐等前沿技術(shù)話題展開深度交流和溝通探討的同時,分享大數(shù)據(jù)領(lǐng)域***實踐和最熱門的行業(yè)應(yīng)用。
51CTO記者對即將參加大會演講的百分點研發(fā)副總監(jiān)黃偉進行了專訪,讓我們先睹為快,探聽他在基于深度學習的情感分析方面的心得。
【講師簡介】
黃偉,百分點科技研發(fā)副總監(jiān)。主要負責機器學習和非結(jié)構(gòu)化數(shù)據(jù)挖掘;特別是基于中文語義分析的商業(yè)應(yīng)用,包括商品自動分類、商品畫像、情感分析和口碑分析等。同時致力于研究非結(jié)構(gòu)化數(shù)據(jù)在量化投資中的應(yīng)用。畢業(yè)于上海交通大學計算機專業(yè),曾就職于湯森路透等公司從事機器學習、圖像識別、自然語言處理方面的工作。
何為文本情感分析
文本情感分析:用自然語言處理文本挖掘以及計算機語言學等方法來識別和提取原素材中的主觀信息。通常來說,情感分析的目的是為了找出作者/筆者,在某些話題上或者針對一個文本兩極的觀點態(tài)度。這個態(tài)度或是個人判斷,或是評估,也許是當時的情感狀態(tài),或是作者有意向的情感交流。
互聯(lián)網(wǎng)中充斥著大量的非結(jié)構(gòu)化文本數(shù)據(jù), 這里面含有很多有價值的,但是無法簡單處理、提取的信息。情感是其中一類比較重要的信息,這時候就需要通過文本情感分析來對這部分信息進行自動提取。
當機器能夠自動對新聞或微博、論壇等非結(jié)構(gòu)化文本數(shù)據(jù)進行情感提取,可以利用這些提取到的情感信息,應(yīng)用到如公司負面檢測,從而及時發(fā)現(xiàn)公司品牌的輿情風險或投資風險,應(yīng)用到產(chǎn)品或服務(wù)的正負口碑檢測,去改善產(chǎn)品設(shè)計或服務(wù)流程,還可以通過用戶的正負情感反饋,應(yīng)用到電影票房的預(yù)測甚至如美國大選結(jié)果的預(yù)測。
深度學習VS普通機器學習
深度學習和普通的機器學習***的區(qū)別在于特征處理和模型結(jié)構(gòu)上。
首先是在特征處理的方式上:普通的機器學習核心在于特征工程,效果的好壞90%取決于特征是否有效,這需要數(shù)據(jù)分析師對業(yè)務(wù)問題深度剖析,設(shè)計出對癥的特征,這樣的工程量是非常大的。
隨著數(shù)據(jù)量的大增和計算資源如GPU的發(fā)展,深度學習在大數(shù)據(jù)時代有了驚人的發(fā)展。在深度學習時代,可以通過數(shù)據(jù)本身的各種的特征讓機器自動去做特征提取,當數(shù)據(jù)量足夠大的時候,機器提取的特顯著好于人工特征。
第二,在模型結(jié)構(gòu)上:深度學習主要是以類人腦的多層神經(jīng)網(wǎng)絡(luò)模型為主,包括如DBM、RNN、CNN等不同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法。通過機器學習或淺層機器學習包括了若干種如LR、SVM、隨機森林、***熵、HMM等一系列能夠通過數(shù)據(jù)進行模型自動學習的模型。深度學習模型參數(shù)一般遠遠大于淺層學習模型,為了訓(xùn)練效率的提升,一般采用GPU訓(xùn)練。
情感分析的難點
人類的自然語言非常復(fù)雜。同一個意思可能有無窮盡的方式來表達,不同語境下同一段話,語義也可能有所不同。語義判別級別的文本情感分析也是非常困難的。
考慮到如蘋果(水果)、蘋果(公司)一詞多義、如風險高(負面)、情緒高(正面)詞的結(jié)合將產(chǎn)生不同的語義,同一個意思對不同的人產(chǎn)生不同的情感如價格高(賣者正面、買者負面),諷刺表達(你真厲害!這都不會)等情形, 雖然目前***的技術(shù)已經(jīng)將效果大大提升,但還遠未能達到人的判別能力,還有很大的發(fā)展空間以及技術(shù)挑戰(zhàn)。
情感分析的利器:深度學習
深度學習為什么能解決情感分析這個難題?原因主要有三點:
一、 深度學習是神經(jīng)網(wǎng)絡(luò)模型,如運用CNN、RNN等模型,能保留詞序信息。而這部分信息在淺層模型如LR、SVM、決策樹的應(yīng)用中是需要丟棄的。這部分詞序信息,如果在大量訓(xùn)練數(shù)據(jù)時能夠提升效果。
二、 深度學習,因為Embeddin特征的學習,具有很強的擴展性。神經(jīng)網(wǎng)絡(luò)的模型,需要將詞進行向量化,利用如W2V\GloVe等離線模型(特征挖掘)向量的接入后,其特征已具備語義信息,訓(xùn)練出的模型具有了很強的擴展性。而淺層學習的輸入多為詞級別的特征,對于實際訓(xùn)練集非常有限的情形下,效果大受制約。
三、 情感分析是語義級別的文本任務(wù),首先深度學習是多層的網(wǎng)絡(luò)結(jié)構(gòu),天生具備了學習深層次語義信息的架構(gòu),更符合人類思考的方式。
深度學習在文本情感分析上主要是運用輸入詞的Embedding向量接入,利用如CNN、RNN(LSTM)等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過SGD算法在訓(xùn)練數(shù)據(jù)上利用GPU進行訓(xùn)練。因為模型本身Embedding有包含語義信息和網(wǎng)絡(luò)結(jié)構(gòu)保留了詞序信息,大量數(shù)據(jù)的訓(xùn)練結(jié)果會使得效果上是要好傳統(tǒng)的機器學習。
但是也有一定的劣勢,因為實際訓(xùn)練中沒有***或足夠大的標注集,模型的擴展性會擴大,因為標注集的問題(如數(shù)據(jù)不夠大,不滿足實際分布),會擴大錯誤率。所以模型的后期糾錯異常重要,這樣模型的效果(召回和精度)才能都提高。
百分點內(nèi)部因為業(yè)務(wù)需要,持續(xù)進行情感分析模型的調(diào)優(yōu)。從最早基于規(guī)則的情感模型(結(jié)合一定的語法規(guī)則以及簡單進行正負詞統(tǒng)計的模型),到利用機器學習的方法去學習情感模型(基于標注數(shù)據(jù)、SVM決策樹等模型融合),***升級到利用CNN、LSTM去訓(xùn)練模型,每一步都顯著的提升了效果,細節(jié)的做法和經(jīng)驗將在WOT大數(shù)據(jù)技術(shù)峰會上給出。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】