各位球迷 大數(shù)據(jù)預(yù)測世界杯靠譜嗎?
騰訊科技:
目前采用大數(shù)據(jù)技術(shù)預(yù)測世界杯的,既有百度這樣的互聯(lián)網(wǎng)公司,也有德銀這樣的知名投行。
一、預(yù)測確實使用了大量數(shù)據(jù)
通過采訪百度的相關(guān)人士,我們發(fā)現(xiàn)百度預(yù)測世界杯的主要數(shù)據(jù)來源包括:百度搜索數(shù)據(jù),球隊基礎(chǔ)數(shù)據(jù),球員基礎(chǔ)數(shù)據(jù),賠率市場數(shù)據(jù)。百度大數(shù)據(jù)通過分析過去5年987支球隊的3.7萬場比賽數(shù)據(jù),共涉及29610名球員,112,285,543條相關(guān)數(shù)據(jù),構(gòu)建了足球賽事預(yù)測模型。
為了驗證模型是否準確,百度用2010年南非世界杯的淘汰賽數(shù)據(jù)進行了準確性驗證,具體方法是為預(yù)測模型輸入2010年世界杯期間的比賽、球隊、球員等相關(guān)數(shù)據(jù),由預(yù)測模型計算出淘汰賽比賽結(jié)果,與當時的比賽結(jié)果進行對比,結(jié)果顯示16場淘汰賽算準了12場,準確率為75%。
德銀則是根據(jù)各個球隊的FIFA排名、歷史戰(zhàn)績、球員構(gòu)成和賭球賠率等因素,建立了量化分析模型,并根據(jù)復(fù)雜計算得到一份奪冠概率表格。其中巴西名列第一,緊隨其后的是德國、西班牙、法國。然后再根據(jù)某些假設(shè),得出最終的冠軍得主。
二、推算邏輯并不完美
德銀推算出的最終的冠軍得主是在概率表的基礎(chǔ)上得出的。具體來說,德銀從奪冠概率表格中挑選出了前10強,這10強依據(jù)奪冠的概率排名分別是巴西、德國、西班牙、法國、阿根廷、意大利、荷蘭、葡萄牙、烏拉圭和英格蘭。德銀認為最終的冠軍只能從這十家選出。
在篩選的過程中,德銀提出了“輪流轉(zhuǎn)周期”概念,德銀認為過去19屆世界杯當中,有3次是連續(xù)四屆世界杯由不同的四支球隊奪冠,還有2次是連續(xù)兩屆世界杯由不同的兩只球隊奪冠,剩下的3屆即從2002-2010年的三屆世界杯構(gòu)成了德銀心中又一個四屆不同得主的輪流轉(zhuǎn)周期的前3/4,德銀由此排除了2014年巴西、意大利和西班牙奪冠的可能性,因為它們是過去三屆世界杯的冠軍得主。
這樣就剩德國、法國、阿根廷、荷蘭、葡萄牙、烏拉圭和英格蘭七只隊伍,然后德銀根據(jù)另一個假設(shè):強隊會回來,即奪取過世界杯的強隊,未來必然還會奪取世界杯或至少打入一次決賽。而英格蘭就在1966年奪過一次冠,此后至今從未進過決賽,德銀據(jù)此認為英格蘭奪冠可能性大增。
最后,本屆英格蘭隊有6名隊員來自利物浦,而正是在利物浦的球員最多的1966年,英格蘭獲得了歷史上唯一一次世界杯冠軍。同時德銀報告的主筆人承認自己是利物浦隊的鐵桿球迷,因此,最后確定英格蘭將獲得世界杯的冠軍。
不難發(fā)現(xiàn)其中的邏輯非常牽強。德銀似乎只為了得出一個想要的結(jié)果而設(shè)置了某個模型或假設(shè),而非根據(jù)確定的科學(xué)模型來推測最終的結(jié)果。有“本末倒置”之嫌。
百度相對來說更加科學(xué)一些,起碼推測的因果順序沒有顛倒。但是百度的推測顯然也有漏洞,百度的模型經(jīng)過自己的驗證之后,準確率也只有75%。而且這個驗證是輸入過去的數(shù)字來推測,但是過去準確的未來并不一定準確。
三、“醉翁之意”不在預(yù)測本身
用大數(shù)據(jù)來預(yù)測世界杯比用章魚保羅更加可信(起碼從表面上來看是這樣)。不過這種預(yù)測活動更像是利用世界杯而進行的營銷活動,目的并不是為了得出某個確定的結(jié)論,而是為了吸引網(wǎng)友的參與。
百度的世界杯預(yù)測還跟足彩投注活動結(jié)合,通過預(yù)測出奪冠率這一數(shù)字,為用戶購買足球彩票提供參考,更像一場商業(yè)活動。
不過,在世界杯到來的前夕,網(wǎng)友們通過企業(yè)所做的預(yù)測得知哪支球隊可以奪冠也是一種娛樂。對于預(yù)測結(jié)果到底有多大的可信度不必太過認真。























