特朗普獲勝,大數(shù)據(jù)技術(shù)失利?并非如此
譯文【51CTO.com快譯】 民意調(diào)查結(jié)果再次印證一句老話:“進(jìn)來的是垃圾,出去的也一定是垃圾”。
通過大選前的***幾輪民意調(diào)查,大多數(shù)人認(rèn)定共和黨人唐納德·特朗普將敗給民主黨上希拉里·克林頓。
然而事實(shí)并非如此。這次失敗的預(yù)測(cè),可能會(huì)令人們對(duì)于部分熱門技術(shù)領(lǐng)域產(chǎn)生疑慮,包括大數(shù)據(jù)分析與客戶關(guān)系管理。
不能言之過早,部分?jǐn)?shù)據(jù)專家指出。他們同時(shí)表示,問題在于民意調(diào)查及FiveThirtyEight等天氣預(yù)報(bào)方還需要更多關(guān)注數(shù)據(jù)收集而非數(shù)據(jù)處理。
數(shù)據(jù)分析機(jī)制在奧克蘭競(jìng)技隊(duì)的錢球模型中運(yùn)作良好,但棒球數(shù)據(jù)統(tǒng)計(jì)與選舉投票有著巨大差異,CRM分析師兼Beagle Research集團(tuán)創(chuàng)始人Denis Pombriant表示。統(tǒng)計(jì)學(xué)家已經(jīng)收集到“一個(gè)多世紀(jì)周期內(nèi)極為可靠的”棒球數(shù)據(jù),而民意調(diào)查數(shù)據(jù)目前尚不完善,他解釋稱。
一切數(shù)據(jù)分析工作都取決于“良好、明確且有效的數(shù)據(jù),正因?yàn)槿绱?,其目前僅在棒球領(lǐng)域擁有良好的指導(dǎo)效果,”他在上周三的研究報(bào)告中指出?!叭绻粚?duì)數(shù)據(jù)加以進(jìn)行整理,那么其將再次印證IT領(lǐng)域的一句老話,‘進(jìn)來的是垃圾,出去的也一定是垃圾?!?/p>
民意調(diào)查其實(shí)并不屬于真正的大數(shù)據(jù),企業(yè)戰(zhàn)略集團(tuán)資深分析師Nik Rouda補(bǔ)充稱?!懊褚庹{(diào)查數(shù)據(jù)在樣本規(guī)模上不成問題,但在數(shù)據(jù)總量、數(shù)據(jù)類別以及歷史嘗試等層面尚不符合實(shí)時(shí)分析、機(jī)器學(xué)習(xí)以及其它先進(jìn)分析機(jī)制的要求,”他通過郵件表示?!霸谖铱磥?,采用更多大數(shù)據(jù)技術(shù)應(yīng)該能夠帶來更理想的預(yù)測(cè)結(jié)論。”
兩支競(jìng)選團(tuán)隊(duì)完全能夠依靠選民分布、個(gè)人資料以及“行為分析機(jī)制帶來清晰的宏觀結(jié)論”,Rouda表示?!斑@實(shí)際上屬于傳統(tǒng)分析方案的失敗,而非數(shù)學(xué)方法的失敗或者大數(shù)據(jù)的失敗?!?/p>
他建議稱,預(yù)測(cè)各方應(yīng)當(dāng)更多將民意調(diào)查數(shù)據(jù)與社交媒體加以結(jié)合。相比之下,數(shù)字處理方案則更擅長(zhǎng)于提供更為細(xì)微的財(cái)務(wù)性指標(biāo)。
需要指出的是,在大多數(shù)全國(guó)性民意調(diào)查中,希拉里僅以小幅度優(yōu)勢(shì)取勝,其優(yōu)勢(shì)僅存在于誤差范圍內(nèi)。截至上周三上午,希拉里在超過1.185億張投票中領(lǐng)先18萬5千票,但其至少在27個(gè)州內(nèi)落敗,其中包括數(shù)個(gè)原本預(yù)測(cè)其獲勝的州。最終電子計(jì)票結(jié)果則顯示,她的總得票數(shù)并不及特朗普。
然而,錯(cuò)誤的預(yù)測(cè)結(jié)果似乎并非單純?cè)醋哉`差范圍,普林斯頓選舉財(cái)團(tuán)主管Samuel Wang教授指出——該財(cái)團(tuán)曾在上周二早晨預(yù)測(cè)希拉里的獲勝機(jī)率高達(dá)99%。
民意調(diào)查結(jié)果源自“一項(xiàng)系統(tǒng)性錯(cuò)誤,”Wang在郵件中解釋稱?!罢麄€(gè)民意調(diào)查投票組都被關(guān)閉。這是一項(xiàng)巨大的錯(cuò)誤,且對(duì)結(jié)論的影響比率高達(dá)4%左右?!?/p>
Wang指出,他仍然在對(duì)這些結(jié)果進(jìn)行評(píng)估。發(fā)生預(yù)測(cè)錯(cuò)誤的原因之一,可能在于猶豫不決選民群體的搖擺態(tài)度。
“民意調(diào)查人員使用了‘未決定’這樣的字眼,但這實(shí)際意味著此類選民無法表達(dá)自己的偏好——他們甚至自己也沒有意識(shí)到這一點(diǎn),”他指出。
在競(jìng)選初期,約有20%的共和黨選民抱有這種“未決定”態(tài)度,Wang指出?!皩?duì)于他們,投票給特朗普確實(shí)是個(gè)困難的選擇,因?yàn)樗麄儾恢涝撝矣邳h派立場(chǎng)還是反對(duì)激進(jìn)候選人,”他補(bǔ)充道?!白罱K,也許是對(duì)黨派的忠誠(chéng)讓他們下定了決心?!?/p>
Wang與Ovum大數(shù)據(jù)分析師Tony Baer都建議稱,民意調(diào)查工作可能低估了那些難以觸及的選民。美國(guó)的許多居民已經(jīng)不再使用固定電話,這使得調(diào)查正確目標(biāo)變得更加困難,Baer表示。
另外,人們?cè)诿褚庹{(diào)查中給出的結(jié)論也許并非出自本心。民意調(diào)查有可能得到“錯(cuò)誤的信號(hào)”,Baer在郵件中指出。
“當(dāng)擁有足夠龐大的數(shù)據(jù)集時(shí),大家可以找到關(guān)于任何事物的信號(hào),”他補(bǔ)充稱。“因此,這就強(qiáng)調(diào)了正確數(shù)據(jù)集以及提出正確問題的重要性,意味著我們需要利用更多不同的數(shù)據(jù)集測(cè)試自己的假設(shè)?!?/p>
在被問及對(duì)特朗普獲勝作何感想時(shí),Baer表示他“和其他人一樣感到困惑。”
原文標(biāo)題:Is Trump's unexpected victory a failure for big data? Not really,作者:Grant Gross
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】