微軟研究院是如何利用數(shù)據(jù)挖掘預(yù)測(cè)奧斯卡的?
奧斯卡獲獎(jiǎng)名單甫一公布,興奮的除了影迷們,恐怕還有微軟亞洲研究院。他們的官微稱,微軟研究院的“David Rothschild帶領(lǐng)的團(tuán)隊(duì)通過(guò)對(duì)入圍影片相關(guān)數(shù)據(jù)分析預(yù)測(cè)出今年各項(xiàng)奧斯卡大獎(jiǎng)的最終歸屬”,“除最佳導(dǎo)演外,其他各項(xiàng)奧斯卡大獎(jiǎng)?lì)A(yù)測(cè)全部命中。”
微軟亞洲研究院可能得興奮過(guò)頭了,實(shí)際情況是,David團(tuán)隊(duì)對(duì)所有24個(gè)獎(jiǎng)項(xiàng)都做出了預(yù)測(cè),其中19項(xiàng)預(yù)測(cè)正確,有5項(xiàng)錯(cuò)誤,出錯(cuò)的除去最佳導(dǎo)演外,還包括最佳男配角、最佳化妝、最佳紀(jì)錄短片和最佳藝術(shù)指導(dǎo)這幾個(gè)獎(jiǎng)項(xiàng)。
當(dāng)然,即使這樣,也不得不說(shuō)他們做出的預(yù)測(cè)結(jié)果準(zhǔn)確率已經(jīng)非常高。David在微軟研究院的博客中介紹了他們是如何通過(guò)對(duì)數(shù)據(jù)進(jìn)行挖掘,建立預(yù)測(cè)模型來(lái)得出這一結(jié)果的:
“預(yù)測(cè)奧斯卡的方法同我預(yù)測(cè)其他東西的方法一致,包括政治。”David說(shuō),”我關(guān)注最有效的數(shù)據(jù),然后創(chuàng)建一個(gè)不受任何特別年份結(jié)果干擾的統(tǒng)計(jì)模型。所有模型都根據(jù)歷史數(shù)據(jù)進(jìn)行檢測(cè)和校正,確保模型能夠正確預(yù)測(cè)樣本結(jié)果。這些模型能夠預(yù)測(cè)未來(lái),而不只是驗(yàn)證過(guò)去發(fā)生的結(jié)果。”
“我關(guān)注四種不同類型的數(shù)據(jù):投票數(shù)據(jù)、預(yù)測(cè)市場(chǎng)數(shù)據(jù)和基礎(chǔ)數(shù)據(jù)和用戶生成數(shù)據(jù)( user generated data )。
對(duì)于大選來(lái)說(shuō),基礎(chǔ)數(shù)據(jù),比如說(shuō)過(guò)去的選舉結(jié)果、現(xiàn)任者和經(jīng)濟(jì)指數(shù)等,更為重要。在整個(gè)預(yù)測(cè)周期中,會(huì)通過(guò)基礎(chǔ)數(shù)據(jù)建立一個(gè)基準(zhǔn),當(dāng)預(yù)測(cè)市場(chǎng)數(shù)據(jù)和投票數(shù)據(jù)所含信息越來(lái)越豐富之后,再把重點(diǎn)轉(zhuǎn)向后者。預(yù)測(cè)2012年總統(tǒng)大選時(shí),我運(yùn)用了少量的用戶生成數(shù)據(jù),但是Xbox LIVE的數(shù)據(jù)對(duì)于提供大事件的實(shí)時(shí)分析非常關(guān)鍵。
但是奧斯卡的預(yù)測(cè)缺少投票數(shù)據(jù),而且票房回報(bào)和電影評(píng)分等數(shù)據(jù)在統(tǒng)計(jì)學(xué)上并不是那么地有效。所以我更多地把注意力放在預(yù)測(cè)市場(chǎng)數(shù)據(jù)上,再加入部分用戶生成數(shù)據(jù),這可以幫助我了解電影內(nèi)部和不同類別之間關(guān)聯(lián)度,比如《林肯》會(huì)贏得多少個(gè)項(xiàng)獎(jiǎng)項(xiàng)。
只要我關(guān)注一個(gè)新的領(lǐng)域,我就會(huì)去思考對(duì)于一項(xiàng)有意義的預(yù)測(cè)來(lái)說(shuō),有哪些關(guān)鍵的事情:
首先,我會(huì)確定什么是最相關(guān)的預(yù)測(cè)。比如說(shuō),奧斯卡我會(huì)關(guān)注24個(gè)類別可能的贏家,也會(huì)思考某部電影的獲獎(jiǎng)總數(shù);
其次,所有的預(yù)測(cè)會(huì)進(jìn)行實(shí)時(shí)更新。從研究的角度看,了解從做出預(yù)測(cè)和最終結(jié)果之間所發(fā)生事件的價(jià)值很關(guān)鍵。對(duì)于奧斯卡來(lái)說(shuō),這些事件就是其他獎(jiǎng)項(xiàng)(如金球獎(jiǎng)等)的頒獎(jiǎng)結(jié)果;
最后,我會(huì)利用這個(gè)領(lǐng)域的歷史數(shù)據(jù)來(lái)建立這個(gè)模型,然后不斷更新以確保模型的準(zhǔn)確度。我想強(qiáng)調(diào)的是,我們做的每件事都是針對(duì)獨(dú)立領(lǐng)域的,來(lái)保證它能擴(kuò)展到很多問(wèn)題上。如果這項(xiàng)研究能推演出更有效率的預(yù)測(cè)模型,能應(yīng)用到更多領(lǐng)域來(lái)解決更多問(wèn)題,那它對(duì)于微軟、對(duì)于學(xué)術(shù)界和這個(gè)世界來(lái)說(shuō)都將有很大的價(jià)值。”
David和他的團(tuán)隊(duì)開(kāi)設(shè)了PredictWise網(wǎng)站,專門(mén)刊登對(duì)于各項(xiàng)重大事件的預(yù)測(cè)結(jié)果。他稱,奧斯卡預(yù)測(cè)的難度非常大,因?yàn)樗婕暗?4個(gè)類別(通常只有6個(gè)),而且隨著奧斯卡之前其他獎(jiǎng)項(xiàng)的不斷頒出,整個(gè)結(jié)果會(huì)不斷地產(chǎn)生變化。
為了解決這個(gè)問(wèn)題,David加大了動(dòng)態(tài)數(shù)據(jù)在整個(gè)預(yù)測(cè)模型里的比重。
“實(shí)時(shí)預(yù)測(cè)是非常重要的。因?yàn)閷?shí)時(shí)預(yù)測(cè)可以隨時(shí)提供最新的預(yù)測(cè)結(jié)果,而動(dòng)態(tài)數(shù)據(jù)的挖掘表明整個(gè)預(yù)測(cè)結(jié)果正在不斷納入新信息。此外,它可以提供一個(gè)更細(xì)的追蹤記錄,來(lái)展示什么時(shí)候/為什么發(fā)生了變化,是哪個(gè)部分影響了最后的結(jié)果。”
以最佳影片獎(jiǎng)的動(dòng)態(tài)數(shù)據(jù)為例,大熱門(mén)電影《林肯》的勝率就在《逃離德黑蘭》陸續(xù)獲得多個(gè)獎(jiǎng)項(xiàng)之后迅速滑坡——在奧斯卡提名剛公布的時(shí)候,《逃離德黑蘭》僅有8%的可能性獲獎(jiǎng),但是后期的獎(jiǎng)項(xiàng)讓它的獲勝率迅速增長(zhǎng)到了93%。
除了要考慮時(shí)間上的動(dòng)態(tài)變化,還要注意數(shù)據(jù)之間的相互影響。David的模型指出,最佳影片獎(jiǎng)和最佳改編劇本獎(jiǎng)之間有著強(qiáng)烈的相關(guān)性,所以《林肯》和《逃離德黑蘭》在這兩個(gè)獎(jiǎng)項(xiàng)里波動(dòng)趨向基本一致,只是幅度略有差異?!读挚稀纷畛跤?0%的可能性獲得最佳改編劇本獎(jiǎng),但在它獲得最佳影片獎(jiǎng)的可能性一路走低后,《逃離德黑蘭》的得獎(jiǎng)率反超到了57%。
為了更好的實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)的挖掘,David還和微軟的Office部門(mén)一起合作,發(fā)布了一款名為“Oscars Ballot Predictor”的Excel App,可以實(shí)時(shí)更新預(yù)測(cè)情況。

不過(guò),和David更多的是挖掘預(yù)測(cè)市場(chǎng)數(shù)據(jù)和基礎(chǔ)數(shù)據(jù)不同,分析機(jī)構(gòu)BranWatch選擇的是利用社交數(shù)據(jù)建立自己的預(yù)測(cè)模型。它從各大社交網(wǎng)絡(luò)中找出演員、導(dǎo)演和電影被提及的次數(shù),通過(guò)計(jì)算所獲得的積極評(píng)價(jià)數(shù)來(lái)預(yù)測(cè)他們獲獎(jiǎng)的幾率。而Twitter占到了BrandWatch取樣內(nèi)容的約40%。
BrandWatch的做法并不新鮮,但是以往的分析數(shù)據(jù)有一點(diǎn)不同的是,它把專業(yè)人士的評(píng)論和普通大眾的評(píng)論區(qū)分開(kāi)來(lái)統(tǒng)計(jì),而且只收集積極評(píng)價(jià)的數(shù)量。這里面就涉及到了兩個(gè)變量,一是提及次數(shù),還有一個(gè)就是背后的態(tài)度。BrandWatch認(rèn)為,這樣就確保可以過(guò)濾掉一定的無(wú)效數(shù)據(jù),比如,大量Helen Hunt在紅地毯上的穿著的評(píng)價(jià),就不會(huì)作為主要數(shù)據(jù)納入到統(tǒng)計(jì)中。
此外,因利用統(tǒng)計(jì)學(xué)成功預(yù)測(cè)去年美國(guó)總統(tǒng)大選的Nate Silver,也給出了他自己的預(yù)測(cè)結(jié)果和模型,我們就不再贅述,有興趣的可以點(diǎn)擊他在《紐約時(shí)報(bào)》的專欄。