重視非結構化數(shù)據(jù)分析 走出兩大“經(jīng)典”誤區(qū)
雖然基本上國內(nèi)大部分公司,言必提“大數(shù)據(jù)”,但是對于大部分CIO、CTO們來說,對數(shù)據(jù)的分析仍然停留在過去的階段:對于非結構化數(shù)據(jù)分析的成熟度還遠遠落后于結構化數(shù)據(jù)。
但是現(xiàn)在移動端所帶來的爆發(fā)式增長給大數(shù)據(jù)從業(yè)者帶來了非常大的挑戰(zhàn),這些數(shù)據(jù)有很多是非結構化數(shù)據(jù),充斥了人們交流的空間,相應的,對非結構化數(shù)據(jù)的分析也變得越來越重要——對非結構化數(shù)據(jù)進行分析、提取出有價值的東西,成為CIO、CTO們最關注的問題。
但是目前,很多人仍有非結構化數(shù)據(jù)分析等同于輿情分析的粗暴認知。
非結構化數(shù)據(jù)分析就是輿情分析?錯!
“非結構化數(shù)據(jù)分析就是輿情分析,這個技術中國現(xiàn)在已經(jīng)發(fā)展的很快了。”類似這樣的言論在CIO、CTO們的交流中屢見不鮮。
但是美國數(shù)據(jù)分析科學家、美國非結構化數(shù)據(jù)分析鼻祖企業(yè)Taste Analytics創(chuàng)始人及全美五大可視化研究中心的Derek Wang(汪曉宇)博士告訴記者,事實上這是完全不對的,輿情分析其實僅是非結構化數(shù)據(jù)分析的一部分。
輿情分析,是人們通過先前經(jīng)驗制定監(jiān)控的KPI以及監(jiān)控模型,而后通過模型預知和監(jiān)控未來風險的過程。
但是真正的非結構化數(shù)據(jù)分析,是一個由數(shù)據(jù)驅動(Data-driven)的語義分析加輿情分析的整體過程,這比單純的輿情分析更具科學性,內(nèi)涵更豐富。
首先,輿情分析具有滯后性,而非結構化數(shù)據(jù)分析具有前瞻性。
輿情分析是一個先建詞庫、后驗證的過程。舉例來說,比如公司要監(jiān)控某次危機,輿情分析就需要先將與這個危機有關的詞匯建立到學習范本里,一旦隨后的搜索監(jiān)控結果與范本里的詞匯有所匹配,那么就說明已經(jīng)出現(xiàn)了這個趨勢。
可以看到,這是一個后驗的過程,但是,非結構化數(shù)據(jù)分析則是機器從未知的數(shù)據(jù)里實時提取出重要的關鍵信息,作為未來輿情建模的基礎性標準,具有明顯的前瞻性。
“語義分析其實是輿情分析的對立面。輿情是你知道這件事再去監(jiān)測,而非結構化數(shù)據(jù)分析則是不知道的時候去挖掘、建立監(jiān)測的模型。一旦數(shù)據(jù)容量呈爆炸式增長或流行詞匯更新?lián)Q代,非結構化數(shù)據(jù)分析可以實時更新學習范本,重新定義監(jiān)控模型。”Derek Wang博士說。
第二,輿情分析會依賴于人們的經(jīng)驗來建立模型,而非結構化數(shù)據(jù)則是數(shù)據(jù)驅動,更為客觀科學。
“雖然輿情監(jiān)控也有機器學習的技術在里面,但是***不同在于,它是一個后驗的過程。”Derek Wang博士說,“這要求人們先要有這個經(jīng)驗去建模和監(jiān)測。”
而語義分析是非結構化數(shù)據(jù)分析里的一個重要部分,相對于輿情分析需要先建立相關的詞匯庫,語義分析則是一個用機器學習的方法從數(shù)據(jù)源里提取出關鍵信息的過程。由于它是通過統(tǒng)計學和深度學習的方法產(chǎn)生,所以能保證科學性,更客觀自然地把文檔里的關鍵信息提取出來。
第三,人機互動可以補足技術短柄。
真正的非結構化數(shù)據(jù)分析,比如Taste Analytics研發(fā)出來的技術,不僅包括輿情分析和語義分析,更為關鍵的是,還加上了人機互動的創(chuàng)新機制,涵蓋了整個非結構化數(shù)據(jù)分析全過程——從語義分析到人機互動,再到輿情分析,三者缺一不可。
據(jù)記者了解,目前美國工業(yè)界已經(jīng)充分認可了這種三位一體的非結構化分析理念:在語義分析的結果基礎上,企業(yè)內(nèi)部分析師對機器學習的結果進行學習和KPI篩選,而后再建立輿情模型,進行長時間監(jiān)控。
這樣合理地整合“輿情”加“語義”兩大技術系統(tǒng),再把企業(yè)內(nèi)部分析師的主觀能動性有機結合起來,才能實現(xiàn)客觀的數(shù)據(jù)分析。
美國一家知名銀行的受訪人士也表示,此前他們委托第三方建立的輿情體系,其實最終效果并不讓人滿意。“按照人為經(jīng)驗建立的輿情體系下,監(jiān)控和分析的結果都很片面,”對方稱,“所以我們最終還是轉向了Taste Analytics結合輿情、語義和人機互動的更加客觀高效的非結構化數(shù)據(jù)分析服務。”
非結構化數(shù)據(jù)分析就是情感分析?錯!
不僅國內(nèi),即使在美國,非結構化數(shù)據(jù)分析也屬于非常前沿的技術,企業(yè)簡單粗暴地把非結構化數(shù)據(jù)分析等同于輿情分析的也不在少數(shù)。他們甚至還走入了另外一個誤區(qū):把非結構化數(shù)據(jù)分析和原來美國流行的情感分析也混為一談。
美國很多企業(yè)都和客戶關系很緊密,非常注重客戶的反饋。而情感分析就是這樣應運而生的:它讓機器試圖理解人說的這段話是正面、褒義的,還是負面、貶義的。
很多美國企業(yè)在過去3、4年里,都把所謂的非機構化數(shù)據(jù)分析,當成情感分析。但是,即使是業(yè)界***水平,也僅僅能夠把用戶情感度劃分成11個層級,來讓機器了解人們對這個產(chǎn)品是喜歡、還是討厭,卻無法真正讓企業(yè)理解用戶的深層次需求。
Derek Wang博士介紹說,情感分析的局限性非常大,最多只能作為企業(yè)數(shù)據(jù)分析的一個參考指標,而不能保證100%正確。
比如,嘲諷的語氣就是機器無法識別的。美國就曾有公司過于信賴情感分析模型,完全錯把顧客的嘲諷當成夸贊,搞反了產(chǎn)品研究的方向。
另外,情感分析缺乏對客戶想法的深入挖掘。
機器可以嘗試對喜惡賦值,但是這一數(shù)值沒有辦法為企業(yè)解釋上下文是什么,也就是說永遠搞不清客戶為什么而喜歡/討厭它,這樣一來情感分析的參考價值就大大縮水。
但是,非結構化數(shù)據(jù)分析卻可以實現(xiàn)“溢價分析”,也就是說,它不僅可以告訴企業(yè)客戶的情感度多少,還能指出客戶在哪里有情感不滿。這樣就為企業(yè)提供了科學的決策輔助工具,有助于企業(yè)在今后有效地提升用戶滿意度。
“我們的語義分析可以把很多種自然語言分析模塊有機結合在一起,把自然語言學習、分詞、聚類、情感分析都立體整合,把整體化的語義分析帶給市場。” Derek Wang博士介紹說,“這其實也是非結構化數(shù)據(jù)分析和傳統(tǒng)情感分析***的不同。”
海量的客戶需求,巨大的市場空白
據(jù)IBM商業(yè)價值研究院和牛津大學賽德商學院共同發(fā)布的《分析:大數(shù)據(jù)在現(xiàn)實世界中的應用》顯示,全球僅四分之一的受訪者表示自己具備了分析高度非結構化數(shù)據(jù)的能力,而對大部分組織而言,掌握先進的非結構化數(shù)據(jù)分析能力仍是從“大數(shù)據(jù)”中獲得價值的重大挑戰(zhàn)。
事實上,任何需要和客戶直接打交道的企業(yè),都應該從現(xiàn)在開始,重視非結構化數(shù)據(jù)分析的重要性。
為什么呢?至少有兩點顯而易見的理由。
首先,非結構化數(shù)據(jù)分析可以排查出致命紕漏,保住了企業(yè)的“底線”。
企業(yè)服務里可能存在很多難以察覺但是致命的紕漏,用別的方法是很難排查的。比如,美國某著名家電廠商CIO就告訴記者,他們在啟用The Taste Signals Platform的***天,就發(fā)現(xiàn)了一年以來客戶郵件一直在抱怨的一個小紕漏,從而及時挽回了品牌聲譽。
其次,非結構化數(shù)據(jù)分析提升了企業(yè)客戶服務的效率。
目前,大多數(shù)企業(yè)已經(jīng)建立了多個客戶溝通渠道,平均下來有6-7種之多。企業(yè)每天都要安排大量的客服人員和客戶溝通,但是卻“治標不治本”。
企業(yè)對客戶投訴等這些典型的非結構化數(shù)據(jù)的分析很少,更多的是疲于解決問題,而不是找到投訴背后的主要原因,而從根本上解決它。
“很多時候,客戶一抱怨,客服就是去安撫,甚至安排退貨,很少有企業(yè)來看說每月為什么有退貨,而只是在被動解決問題。”Derek Wang博士表示,“而非結構化數(shù)據(jù)分析,對客戶的抱怨不僅知其然,更將其作為分析結果呈現(xiàn)給企業(yè),企業(yè)可以做出改進,從而從根本上解決大批客戶的抱怨,大大提升了客戶滿意度。”
“事實上,不僅如此,以美國企業(yè)的經(jīng)驗來看,數(shù)據(jù)驅動的科學的非機構化數(shù)據(jù)分析,可以幫助企業(yè)提升內(nèi)部分析師的效率,并且實現(xiàn)明顯的商業(yè)價值。”Derek Wang博士表示。
目前,中美企業(yè)都意識到了非結構化數(shù)據(jù)分析的重要性,但是苦于市場上幾乎沒有成熟的解決方案。
Derek Wang博士也表示,排除BAT之外,能夠在內(nèi)部建立非結構化數(shù)據(jù)分析團隊的公司,幾乎可以稱得上鳳毛麟角,很多都是交給第三方服務公司。但問題在于,很少有第三方公司可以完全獨立承擔非結構化數(shù)據(jù)分析服務,而且技術也遠遠不能滿足現(xiàn)在企業(yè)的需求。
另外,即使有一些非結構化數(shù)據(jù)分析的工具,由于它們都不是給最終用戶設計的,所以普遍都很難用,需要長時間對員工下進行培訓,這樣產(chǎn)生的經(jīng)濟價值很小。
“CIO們幾乎都沒有一個工具,可以來調動員工分析數(shù)據(jù)的熱情。而讓第三方給他們提供的話,效果也不好。”Derek Wang博士說,“很多時候很多大數(shù)據(jù)分析工具看起來賣相很好,但是很難被大范圍使用,這是企業(yè)的損失。”
美國率先實現(xiàn)非結構化數(shù)據(jù)分析
盡管企業(yè)對非結構化數(shù)據(jù)分析有很大的需求,但是這個市場幾乎是一片空白,而由美國夏洛特圖像可視化中心的幾個年輕的科學家成立的Taste Analytics,看到了這個領域的巨大潛力,決定用自己的研究成果來顛覆傳統(tǒng)的數(shù)據(jù)分析服務。
目前已有6家福布斯全球500強公司以及多家美國主流企業(yè)都采用了Taste的新型非結構化數(shù)據(jù)分析平臺The Taste Signals Platform,而且他們的銷售額在以400%的速度增長。
“Taste Analytics的優(yōu)勢非常明顯,他們可以對數(shù)據(jù)、文字以及語音進行實時分析,結合了輿情分析、語義分析、人機互動三重機制,再加上可視化分析結果和簡單易用的使用界面,他們不僅能幫助企業(yè)了解新的市場增長點、做出正確的決策,而且可以充分調動分析師們的積極性。”業(yè)內(nèi)專家表示。
另外,Taste Analytics的服務適用于各種非結構化數(shù)據(jù)分析場景,只要有聊天記錄、對話記錄和郵件記錄,他們的服務就可以和數(shù)據(jù)源直接對接,非常易用而且安全。
“我們也給中國企業(yè)提供了非常本地化的服務。從安全角度來說,如果是企業(yè)內(nèi)部的私有數(shù)據(jù),我們可以把平臺放到企業(yè)防火墻內(nèi)或者內(nèi)部云里;如果是外部數(shù)據(jù),我們的爬蟲會自動抓取這些數(shù)據(jù),”Derek Wang博士說,“我們一直希望的就是,讓企業(yè)用最小的付出,得到***的結果。”