偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

人工智能如何幫助我們預(yù)見未來(lái)

企業(yè)動(dòng)態(tài)
人類從遠(yuǎn)古時(shí)代通過(guò)薩滿煙熏內(nèi)臟的方式開始就一直不斷嘗試著預(yù)測(cè)未來(lái)。正如本專題所探討的,預(yù)測(cè)現(xiàn)在是一門高速發(fā)展的科學(xué)。該文章探討了如下問(wèn)題:怎樣分配有限的資源、一個(gè)國(guó)家是否會(huì)陷入沖突中、誰(shuí)將有可能贏得選舉或發(fā)表一篇影響巨大的論文以及在這樣一個(gè)新興領(lǐng)域中如何建立標(biāo)準(zhǔn)。

序言

人類從遠(yuǎn)古時(shí)代通過(guò)薩滿煙熏內(nèi)臟的方式開始就一直不斷嘗試著預(yù)測(cè)未來(lái)。正如本專題所探討的,預(yù)測(cè)現(xiàn)在是一門高速發(fā)展的科學(xué)。該文章探討了如下問(wèn)題:怎樣分配有限的資源、一個(gè)國(guó)家是否會(huì)陷入沖突中、誰(shuí)將有可能贏得選舉或發(fā)表一篇影響巨大的論文以及在這樣一個(gè)新興領(lǐng)域中如何建立標(biāo)準(zhǔn)。

社會(huì)科學(xué)家和機(jī)器學(xué)習(xí)社區(qū)正在學(xué)習(xí)新的分析工具,從而從亂糟糟的數(shù)據(jù)中分離出真正有意義的模式。新工具是令人興奮的,但是如果只是使用框架上的軟件包而沒有完全去理解它,那么就會(huì)導(dǎo)致一些災(zāi)難。這一專題的幾位作者描述了平衡機(jī)器學(xué)習(xí)方法和人類因素的現(xiàn)實(shí)目標(biāo)的重要性。

在 20 世紀(jì) 50 年代,著名作家艾薩克·阿西莫夫想象了心理史學(xué)的圖景,其中計(jì)算機(jī)可以通過(guò)龐大的數(shù)據(jù)集預(yù)測(cè)帝國(guó)的興亡。現(xiàn)在科學(xué)還不能完全做到這樣,就像上一次美國(guó)大選那樣。新聞報(bào)道和相關(guān)的報(bào)告也都描述了最新的科學(xué)技術(shù)進(jìn)展,科學(xué)家們也相信隨著方法的改進(jìn)和驗(yàn)證數(shù)據(jù)源的增長(zhǎng),選舉和其他社會(huì)實(shí)踐將變得越來(lái)越可以預(yù)測(cè)。

當(dāng)在多學(xué)科交叉領(lǐng)域中努力解決問(wèn)題時(shí),如將人類對(duì)語(yǔ)義的理解和能處理 TB 級(jí)數(shù)據(jù)的算法結(jié)合起來(lái),成功似乎將會(huì)到來(lái)。研究人員可能仍然遠(yuǎn)遠(yuǎn)不能做出政策制定者所期望精度的預(yù)測(cè),但是他們現(xiàn)在能夠預(yù)想的情景能幫助塑造一個(gè)更好的未來(lái)。

一、預(yù)測(cè)武裝沖突:是時(shí)候調(diào)整我們的期望了嗎?

如果「大數(shù)據(jù)(big data)」可以幫助我們找到合適的合作伙伴、優(yōu)化酒店房間的選擇和解決許多其它日常生活中的問(wèn)題,那么它也應(yīng)該能夠通過(guò)預(yù)測(cè)致命沖突的未來(lái)爆發(fā)來(lái)拯救生命。這是許多將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于來(lái)自互聯(lián)網(wǎng)和其它來(lái)源的新且大規(guī)模的數(shù)據(jù)集的研究者的希望。鑒于世界上仍還有政治暴力所帶來(lái)的苦難和不穩(wěn)定,這一愿景是沖突研究者在政策影響和社會(huì)控制上的終極前沿。

話雖如此,但在學(xué)術(shù)的沖突研究上,預(yù)測(cè)仍然是非常有爭(zhēng)議的。僅有相對(duì)很少的沖突專家嘗試過(guò)明確的沖突預(yù)測(cè)。此外,還沒有建好的早期警報(bào)系統(tǒng)可以作為決策的可靠工具,盡管目前已經(jīng)有一些重大努力了。

近年來(lái),我們已經(jīng)看到了一系列想要填補(bǔ)這一空白的文章出現(xiàn),它們利用了大規(guī)模數(shù)據(jù)收集和計(jì)算分析領(lǐng)域內(nèi)的最新進(jìn)展。這些研究中的任務(wù)是預(yù)測(cè)在給定的國(guó)家和年份是否有可能發(fā)生國(guó)際或國(guó)內(nèi)的沖突,并借此創(chuàng)建全球暴力沖突的年度「風(fēng)險(xiǎn)地圖(risk maps)」。最開始的預(yù)測(cè)模型基于當(dāng)時(shí)政治學(xué)領(lǐng)域新興的定量方法(quantitative methodology)且依賴于簡(jiǎn)單的線性回歸模型。

但是,人們很快就認(rèn)識(shí)到這些模型無(wú)法捕獲沖突預(yù)測(cè)的多變影響和復(fù)雜的相互作用。這種認(rèn)識(shí)導(dǎo)致了機(jī)器學(xué)習(xí)技術(shù)的引入,比如神經(jīng)網(wǎng)絡(luò),這是一種持續(xù)至今的分析趨勢(shì)。在這些模型中,生成暴力后果的風(fēng)險(xiǎn)因素的互動(dòng)是從數(shù)據(jù)中歸納式地推斷出來(lái)的,而且這個(gè)過(guò)程通常需要高度復(fù)雜的模型。今天,沖突預(yù)測(cè)工作的主要主要部分仍然是在年度上的國(guó)家層面分析,也有一些研究已經(jīng)將其預(yù)測(cè)的時(shí)間范圍推至了未來(lái)數(shù)十年。

最近,新的可用數(shù)據(jù)和改進(jìn)過(guò)的模型讓沖突研究者可以理清政治暴力的時(shí)空動(dòng)態(tài)(temporal and spatial dynamics)。其中一些研究可以給出月度或日度的預(yù)測(cè)。這樣的時(shí)間劃分需要修正已有預(yù)測(cè)模型。比如說(shuō),在 [5] 中提出的方法基于以色列-巴勒斯坦沖突的沖突事件數(shù)據(jù)。該分析使用一個(gè)區(qū)分高強(qiáng)度和低強(qiáng)度沖突的模型,基于 1996 年到 2009 年的數(shù)據(jù)生成了 2010 年的預(yù)測(cè)。另一些方法的目標(biāo)是利用新類型的預(yù)測(cè)器(predictor),比如戰(zhàn)爭(zhēng)相關(guān)新聞報(bào)道。因?yàn)樗鼈兡軌蛞赃h(yuǎn)遠(yuǎn)更高的時(shí)間頻率上撲捉到政治緊張,這些報(bào)道被證明是比傳統(tǒng)的結(jié)構(gòu)變量(structural variables,如民主的水平)更強(qiáng)大的戰(zhàn)爭(zhēng)發(fā)生預(yù)測(cè)器。

其它研究則在嘗試探索暴力的地方性變化(subnational variation),不僅試圖預(yù)測(cè)沖突將在何時(shí)發(fā)生,更要預(yù)測(cè)會(huì)在何地發(fā)生??臻g分解(spatial disaggregation)可以讓沖突預(yù)測(cè)按行政單位產(chǎn)生,比如區(qū)或市或任意基于網(wǎng)格的位置。這一領(lǐng)域已有的研究重點(diǎn)是特定的國(guó)家和沖突。比如 Weidmann 和 Ward 為波斯尼亞的內(nèi)戰(zhàn)生成了市級(jí)水平的預(yù)測(cè),如圖 1 所示。另外也有為非洲的空間網(wǎng)格單元(spatial grid cells)得到的類似的暴力預(yù)測(cè) 。同樣,空間預(yù)測(cè)模型的復(fù)雜性的跨度可以非常大,從空間回歸模型到更靈活但也更復(fù)雜的機(jī)器學(xué)習(xí)模型。

圖 1. 波斯尼亞市級(jí)水平的內(nèi)戰(zhàn)暴力預(yù)測(cè)。(左圖)1995 年 6 月在 7 個(gè)市級(jí)單位實(shí)際發(fā)生的暴力事件(暗紅)。(右圖)[7] 中描述的時(shí)空模型預(yù)測(cè)到的暴力(淡紅)。畫有斜紋的圖案表示不正確的預(yù)測(cè)。盡管有 4 個(gè)市級(jí)單位的沖突得到了正確的預(yù)測(cè),但該模型還是錯(cuò)過(guò)了 3 個(gè)實(shí)際發(fā)生的沖突,并錯(cuò)誤地預(yù)測(cè)了 4 個(gè)市級(jí)單位會(huì)發(fā)生暴力。而且正如大多數(shù)沖突預(yù)測(cè)案例一樣,許多區(qū)域仍然是和平的而且也符合預(yù)測(cè)(以灰色表示)。

圖 1. 波斯尼亞市級(jí)水平的內(nèi)戰(zhàn)暴力預(yù)測(cè)。(左圖)1995 年 6 月在 7 個(gè)市級(jí)單位實(shí)際發(fā)生的暴力事件(暗紅)。(右圖)[7] 中描述的時(shí)空模型預(yù)測(cè)到的暴力(淡紅)。畫有斜紋的圖案表示不正確的預(yù)測(cè)。盡管有 4 個(gè)市級(jí)單位的沖突得到了正確的預(yù)測(cè),但該模型還是錯(cuò)過(guò)了 3 個(gè)實(shí)際發(fā)生的沖突,并錯(cuò)誤地預(yù)測(cè)了 4 個(gè)市級(jí)單位會(huì)發(fā)生暴力。而且正如大多數(shù)沖突預(yù)測(cè)案例一樣,許多區(qū)域仍然是和平的而且也符合預(yù)測(cè)(以灰色表示)。

預(yù)測(cè)的愿景和陷阱

很顯然,在沖突預(yù)測(cè)領(lǐng)域確實(shí)出現(xiàn)了一些可觀的進(jìn)步。使用明確的和客觀的統(tǒng)計(jì)標(biāo)準(zhǔn),更新的方法比傳統(tǒng)的解釋性模型實(shí)現(xiàn)更高水平的樣本外準(zhǔn)確度(out-of-sample accuracy)。和過(guò)去的暴力案例的因果解釋相反,樣本外預(yù)測(cè)(out-of-sample forecasting)可以實(shí)現(xiàn)不用于擬合模型的事件預(yù)測(cè)。依賴于先進(jìn)的定量技術(shù)的研究者也取得了具體的預(yù)測(cè)成功。比如,在 Political Instability Task Force 委托的一份報(bào)告中,Ward 及其團(tuán)隊(duì)提前 1 個(gè)月預(yù)測(cè)了泰國(guó) 2014 年 5 月 7 日的軍事政變。

此外,在解決罕見事件預(yù)測(cè)的挑戰(zhàn)上也取得了一些進(jìn)步。標(biāo)準(zhǔn)的、現(xiàn)成可用的機(jī)器學(xué)習(xí)模型通常適用于不同的輸出之間相對(duì)平衡的問(wèn)題。而暴力與和平的預(yù)測(cè)卻并不是這樣的問(wèn)題,其中大部分時(shí)間所檢查到的單元都是和平的。這個(gè)問(wèn)題可以通過(guò)不同的重采樣(resampling)技術(shù)來(lái)解決,這能實(shí)現(xiàn)該模型的遠(yuǎn)遠(yuǎn)更高的整體預(yù)測(cè)準(zhǔn)確度。Muchlinski 等人應(yīng)用這樣技術(shù)在 2001 到 2014 年的樣本上預(yù)測(cè)了內(nèi)戰(zhàn)。他們的模型正確地預(yù)測(cè)了 20 次內(nèi)戰(zhàn)中的 9 次,而傳統(tǒng)的回歸模型沒有預(yù)測(cè)正確。

該文獻(xiàn)還表明以樣本外預(yù)測(cè)(out-of-sample prediction)為重心有助于防止包含進(jìn)可能會(huì)惡化預(yù)測(cè)表現(xiàn)的解釋性的長(zhǎng)列表。更一般而言,這樣的分析也是一個(gè)有用的提醒:過(guò)去事件和未來(lái)事件預(yù)測(cè)的因果解釋是不同但相關(guān)的實(shí)證表現(xiàn)的標(biāo)準(zhǔn) 。

盡管有這樣的進(jìn)展,但要說(shuō)能拯救生命的沖突預(yù)防(conflict prevention)已經(jīng)馬上就能實(shí)現(xiàn)還是過(guò)于樂(lè)觀。此外,這一領(lǐng)域還遠(yuǎn)遠(yuǎn)沒有達(dá)到民意調(diào)查機(jī)構(gòu)和經(jīng)濟(jì)預(yù)測(cè)機(jī)構(gòu)所能接受的政策影響。為什么會(huì)這樣呢?

也許最嚴(yán)重的問(wèn)題在于在完全認(rèn)識(shí)圍繞和平與沖突的根本復(fù)雜性上的普遍失敗。與相對(duì)結(jié)構(gòu)化的機(jī)構(gòu)決策設(shè)置(institutional decision-making settings,如在微觀層面上的投票和消費(fèi)者行為)相反,沖突過(guò)程通常包含一個(gè)難以處理的施動(dòng)因素(actor)集合,這些施動(dòng)因素以一種讓人驚訝的而且從定義上打破規(guī)則的方式交互 。這些情形可通過(guò)基本和固有的復(fù)雜性進(jìn)行特征化,其允許的是實(shí)現(xiàn)「模式預(yù)測(cè)(pattern prediction)」而不是準(zhǔn)確的特定事件的經(jīng)驗(yàn)預(yù)測(cè)。在缺乏充分了解所有理論上的組件的交互方式以及缺乏足夠用于測(cè)量相關(guān)變量的數(shù)據(jù)的情況下,我們所能希望的只有在能增加沖突的概率的結(jié)構(gòu)特征的基礎(chǔ)上的風(fēng)險(xiǎn)評(píng)估(risk assessment)。因此,至少在宏觀層面上,要根據(jù)之前在稍不復(fù)雜的領(lǐng)域(如臺(tái)球、行星運(yùn)動(dòng)或交通系統(tǒng)、)或更簡(jiǎn)單的政治環(huán)境(如選舉競(jìng)爭(zhēng))上的成功來(lái)確定未來(lái)預(yù)測(cè)的表現(xiàn)是無(wú)效的;在這些更簡(jiǎn)單的問(wèn)題中,理論原理得到了廣泛的了解,而且相關(guān)事件發(fā)生的頻率也很高。

即便神經(jīng)網(wǎng)絡(luò)這樣的機(jī)器學(xué)習(xí)技術(shù)能在底層數(shù)據(jù)捕捉非線性,但是地緣政治的變化改變了如國(guó)家及其邊界這樣的分析單位,這種改變帶來(lái)了一個(gè)更基本的挑戰(zhàn),尤其是對(duì)于長(zhǎng)期宏觀預(yù)測(cè)來(lái)說(shuō)。大多數(shù)宏觀模型傾向于跟蹤一組給定的現(xiàn)有狀態(tài)到未來(lái)的屬性,而忽略了領(lǐng)土變化的可能性,比如分裂與統(tǒng)一。然而,正如前蘇聯(lián)和南斯拉夫冷戰(zhàn)結(jié)束帶來(lái)的變化所展現(xiàn)的那樣,這些國(guó)家的國(guó)家層面上的數(shù)據(jù)幾乎沒有為冷戰(zhàn)結(jié)束后的預(yù)測(cè)提供指導(dǎo)。地域的變化之外,這些隱含的恒常性假設(shè)更普遍地適用于單位和因果機(jī)制效應(yīng)之間的互動(dòng)。這個(gè)問(wèn)題阻礙了「交叉驗(yàn)證」的使用,這種方法會(huì)將數(shù)據(jù)集分成若干部分,其中一些是用來(lái)「訓(xùn)練」預(yù)測(cè)算法,還有一些是作為「抵抗(holdout)」部分,后面會(huì)用來(lái)測(cè)試算法。在一些將歷史切成碎片這種做法的情況下,關(guān)于長(zhǎng)期趨勢(shì)的有價(jià)值信息會(huì)丟失,因?yàn)檫@種方法打亂了歷史時(shí)期,把它們看成了是 等效的(equivalent)。

數(shù)據(jù)質(zhì)量進(jìn)一步阻礙了政治暴力預(yù)測(cè)的進(jìn)展。與臺(tái)球或行星運(yùn)動(dòng)軌跡不同,測(cè)量沖突的發(fā)生、地點(diǎn)和時(shí)間要難得多,而且這些預(yù)測(cè)與相當(dāng)大的不確定性有關(guān)。對(duì)于許多暴力的決定因素,如經(jīng)濟(jì)狀況,類似的問(wèn)題也同樣存在。即使在過(guò)去事件的統(tǒng)計(jì)解釋測(cè)量上誤差不是個(gè)問(wèn)題,但它仍然對(duì)未來(lái)暴力行為的預(yù)測(cè)構(gòu)成了挑戰(zhàn),同時(shí)還常常會(huì)降低暴力發(fā)生地點(diǎn)和時(shí)間預(yù)測(cè)的置信度。如果暴力測(cè)量結(jié)果與一個(gè)或更多的預(yù)測(cè)指標(biāo)變量呈現(xiàn)系統(tǒng)性相關(guān),那么會(huì)產(chǎn)生類型更多的嚴(yán)重錯(cuò)誤。因?yàn)檎伪┝ν菑男侣勎恼逻@樣的次要來(lái)源(如新聞文章)編碼而來(lái)的,所以高水平地暴力觀察可能是源于高水平的實(shí)際暴力或者概率更高的報(bào)道(或者兩者都是)。這使得預(yù)測(cè)很困難。擴(kuò)大數(shù)據(jù)集——如在使用自動(dòng)事件編碼的幾個(gè)項(xiàng)目中——可能加劇這一問(wèn)題,因?yàn)樗瑯右蕾嚧渭?jí)來(lái)源。

即便在預(yù)測(cè)研究上的最近進(jìn)展很有前景,我們還是要警告從理論和政策上高估其重要性的傾向。如上面所討論,樣本外預(yù)測(cè)有助于理論建設(shè),但是,這并不意味著有效的解釋必須始終是預(yù)測(cè)性的。根據(jù)達(dá)爾文的理論,一些高度依賴路徑的過(guò)程只允許特定情況下的事后解釋。鑒于沖突過(guò)程的復(fù)雜性特征,特別是在宏觀層面,這樣的解釋仍然可以提供關(guān)于具體機(jī)制和政策有效性的關(guān)鍵信息。此外,將預(yù)測(cè)表現(xiàn)作為唯一有效的經(jīng)驗(yàn)評(píng)估標(biāo)準(zhǔn)是不明智的,特別是在預(yù)測(cè)模型非常復(fù)雜和不透明,以至于尚不清楚預(yù)測(cè)成功的驅(qū)動(dòng)因素是什么的情況下。例如,模型集合上的貝葉斯平均是一種優(yōu)雅歸納技巧,它從競(jìng)爭(zhēng)模型中匯聚了大量數(shù)據(jù),但除非理順理論上的問(wèn)題,否則整體結(jié)果可能只不過(guò)是理論上的黑箱而已。

做政策相關(guān)的預(yù)測(cè)需要謹(jǐn)慎的原因研究還有一些。學(xué)者們給出的預(yù)測(cè)通常都假設(shè)政策制定者最要想要的是預(yù)測(cè)性的風(fēng)險(xiǎn)評(píng)估,因?yàn)檫@些東西能讓他們通過(guò)配置預(yù)防性資源和干預(yù)減少潛在沖突。然而,這些希望假定了政策干預(yù)的效用已被廣為人知。事實(shí)上,無(wú)理論的預(yù)測(cè)在不了解沖突的驅(qū)動(dòng)因素的情況下很少能指導(dǎo)干預(yù)。因此,謹(jǐn)慎執(zhí)行政策分析評(píng)估沖突減少措施帶來(lái)的因果效用是有效政治宏觀預(yù)測(cè)的先決條件。考慮到獲得關(guān)鍵社會(huì)指標(biāo)的可靠信息是有困難的,尤其在發(fā)展中國(guó)家,在許多情況下,一些基本描述和解釋建模可能比預(yù)測(cè)更迫切需要。

推薦

有許多方法可以改善現(xiàn)有的沖突預(yù)測(cè)工作,例如,涉及到方法論和結(jié)果的溝通。在一些情況下,這需要更多用戶友好的方式來(lái)呈現(xiàn)結(jié)果,比如報(bào)告現(xiàn)有和預(yù)測(cè)的趨勢(shì),而不僅僅是基于花哨估計(jì)技術(shù)的接收者操作特征(receiver operating characteristic,ROC)曲線。透明性還要求關(guān)于采樣周期的關(guān)鍵假設(shè)和不確定性測(cè)量在多個(gè)場(chǎng)景中基于備選假設(shè)的情況下能被明確陳述和經(jīng)過(guò)魯棒性測(cè)試。否則,研究者的錯(cuò)誤估計(jì)可能會(huì)傳達(dá)一種錯(cuò)誤的確定感。

為了評(píng)估新方法的附加值,分析師們需要更好地比較他們從復(fù)雜的預(yù)測(cè)機(jī)制中得出的預(yù)測(cè)與簡(jiǎn)單的基線模型。它最純凈的形式,比如一個(gè)基線模型,能簡(jiǎn)單地預(yù)測(cè)出過(guò)去沒有給現(xiàn)在帶來(lái)變化。例如,Lim 等人用一個(gè)基于 agent 的復(fù)雜模型預(yù)測(cè)了前斯拉夫種族暴力的位置。雖然該模型的預(yù)測(cè)精度乍一看令人印象深刻,進(jìn)一步的檢查發(fā)現(xiàn),這種表現(xiàn)與一個(gè)在地圖上隨機(jī)標(biāo)出暴力事件(塞爾維亞和黑山共和國(guó)除外)的模型差不多。

最終,在政治暴力這個(gè)問(wèn)題上,希望大數(shù)據(jù)通過(guò)某種無(wú)理論的「蠻力」產(chǎn)生某種有效的預(yù)測(cè)是錯(cuò)誤的想法。自動(dòng)的數(shù)據(jù)提取算法,比如基于社交媒體的網(wǎng)頁(yè)抓取和信號(hào)探測(cè),可能會(huì)加劇政治緊張局勢(shì),但這并不意味著這些算法能以較高的時(shí)空精度預(yù)測(cè)低概率沖突事件。只有研究人員考慮到數(shù)據(jù)質(zhì)量和代表性的局限性,大型自動(dòng)編碼的數(shù)據(jù)集才能發(fā)揮用處。這樣一來(lái),團(tuán)隊(duì)工作的人類「超級(jí)預(yù)測(cè)員」仍然能在一般政治事件預(yù)測(cè)上擊敗的不僅是更專業(yè)的專家,還包括預(yù)測(cè)市場(chǎng)和其他自動(dòng)化的方法就不足為奇。

總體上看,我們堅(jiān)決相信沖突預(yù)測(cè)非常有用,也值得投入研究。但是,未來(lái)的預(yù)測(cè)研究需要識(shí)別由人類系統(tǒng)的大量歷史復(fù)雜性與偶然性導(dǎo)致的內(nèi)在局限。如冷戰(zhàn)的結(jié)果和更多的最近歷史事件表面,像「英國(guó)退歐」和「特朗普大選勝利」這樣的歷史性「事件」經(jīng)常會(huì)諷刺脫離語(yǔ)境的樣本外的推算(out-of-sample extrapolation)。討論經(jīng)濟(jì)發(fā)展長(zhǎng)期預(yù)測(cè)的難度時(shí),Milanovic 提醒我們「可以也確實(shí)會(huì)改變的變量數(shù)量,歷史中(『自由意志』)人物的角色」,以及戰(zhàn)爭(zhēng)和自然災(zāi)害的影響是如此之大,以至于即使是一代人中最優(yōu)秀的頭腦所作出的大趨勢(shì)預(yù)測(cè)也很少正確。

然而,同時(shí),時(shí)空范圍更有限的預(yù)測(cè)——例如預(yù)測(cè)的一個(gè)給定的處于內(nèi)戰(zhàn)的城市的短期暴力軌跡——是完全可能的,因?yàn)樗鼈儾惶赡苁艿竭@些發(fā)展的影響。因此,該領(lǐng)域的挑戰(zhàn)是,要在社會(huì)和政治世界固有的復(fù)雜性與我們準(zhǔn)確預(yù)測(cè)政治暴力的能力的相關(guān)局限之間找到一個(gè)平衡點(diǎn)。最近收集沖突事件的非總體和空間直觀(spatially explicit)的數(shù)據(jù)加快了,結(jié)果表明,在有限的時(shí)空半徑內(nèi),政策相關(guān)的預(yù)測(cè)是可行的,同時(shí)潛在用處也非常大。然而,超出這些限制,大量的理論和經(jīng)驗(yàn)的不確定性往往壓倒了預(yù)測(cè)的嘗試。在這樣的情況下,在生成可能的情景這個(gè)任務(wù)上,預(yù)測(cè)建模作為一種啟發(fā)式工具,而不是作為具體政策建議的生產(chǎn)工具,或許會(huì)更有用。

二、科學(xué)學(xué)領(lǐng)域中基于數(shù)據(jù)的預(yù)測(cè)研究

想要預(yù)測(cè)發(fā)現(xiàn)的愿望——提前知道將由誰(shuí)在何時(shí)何處發(fā)現(xiàn)什么,幾乎滲透了現(xiàn)代科學(xué)的所有方面:從個(gè)人科學(xué)家到出版商,從資助機(jī)構(gòu)到招聘委員會(huì)。本文調(diào)查了「科學(xué)的科學(xué)(science of science,科學(xué)學(xué))」的新興和跨學(xué)科領(lǐng)域,以及使我們得知科學(xué)發(fā)現(xiàn)的可預(yù)測(cè)性的因素。而后我們將討論改進(jìn)源自科學(xué)的科學(xué)的未來(lái)機(jī)遇及科學(xué)社區(qū)中積極和消極的潛在影響。

目前,對(duì)預(yù)測(cè)發(fā)現(xiàn)——對(duì)何人何時(shí)何地發(fā)現(xiàn)何物提前有些想法——的渴望幾乎遍及現(xiàn)代科學(xué)的所有方面。個(gè)人科學(xué)家通常預(yù)測(cè)哪些研究問(wèn)題或課題會(huì)是有趣的、有影響力的,并且可獲得資金支持。出版商和資助機(jī)構(gòu)評(píng)估手稿或項(xiàng)目意見書時(shí),部分是通過(guò)預(yù)測(cè)其未來(lái)的影響力進(jìn)行的。員工招聘委員會(huì)也會(huì)預(yù)測(cè)哪些候選人員會(huì)在其職業(yè)生涯中作出重要的科學(xué)貢獻(xiàn)。對(duì)于通過(guò)稅費(fèi)資助大部分科學(xué)研究的社會(huì)大眾來(lái)說(shuō),預(yù)測(cè)也是重要的。我們能使科學(xué)發(fā)現(xiàn)過(guò)程更有可預(yù)測(cè)性,就能將資源更高效地用于推動(dòng)有價(jià)值的技術(shù)、生物醫(yī)學(xué)和科學(xué)方面的進(jìn)步。

盡管存在這種普遍的需求,我們對(duì)如何發(fā)現(xiàn)的理解仍然是局限的,并且個(gè)人、出版商、資助機(jī)構(gòu)或招聘委員會(huì)做出的預(yù)測(cè)中相對(duì)來(lái)說(shuō)極少是通過(guò)科學(xué)方式做出的。那么,我們?nèi)绾文苤獣阅男┦强梢灶A(yù)測(cè)的,哪些是無(wú)法預(yù)測(cè)的?盡管將發(fā)現(xiàn)與發(fā)現(xiàn)者相分離會(huì)存在困難,但該論文的首要關(guān)注點(diǎn)是科學(xué)的科學(xué):為科學(xué)性地理解導(dǎo)致科學(xué)發(fā)現(xiàn)的社會(huì)過(guò)程(social processes)而進(jìn)行一種跨學(xué)科工作。(是為了對(duì)科學(xué)哲學(xué)的現(xiàn)時(shí)思考及科學(xué)家如何在個(gè)別科學(xué)挑戰(zhàn)方面取得進(jìn)展,請(qǐng)看(1)

這種預(yù)測(cè)發(fā)現(xiàn)的興趣可以向前追溯近 150 年,一直追溯到哲學(xué)家 Boleslaw Prus (1847–1912) 和經(jīng)驗(yàn)主義學(xué)派的社會(huì)學(xué)家 Florian Znaniecki (1882–1958) 的作品。特別是 Znaniecki,在其倡議下,設(shè)立了對(duì)科學(xué)社會(huì)進(jìn)程的數(shù)據(jù)導(dǎo)向研究。在 20 世紀(jì)的大部分時(shí)間里,該目標(biāo)進(jìn)展緩慢,部分是由于好數(shù)據(jù)難獲取,且大部分人滿足于專家評(píng)判。

今天,科學(xué)圈是一個(gè)巨大而又多變的生態(tài)系統(tǒng),包含著數(shù)以百計(jì)的互相關(guān)聯(lián)的研究領(lǐng)域,數(shù)以萬(wàn)計(jì)的研究人員和每年層出不窮眼花繚亂的新結(jié)果。這樣驚人的體量和復(fù)雜度進(jìn)一步擴(kuò)大了對(duì)科學(xué)的科學(xué)研究的呼聲并激發(fā)了對(duì)這種類型測(cè)量量化方法的研究,比如對(duì)過(guò)去成果的引用、新成果的產(chǎn)生、職業(yè)生涯軌跡、資金贊助、學(xué)術(shù)獎(jiǎng)勵(lì)等等。數(shù)字技術(shù)使得這些信息的生成量巨大,而研究人員則正在開發(fā)新的強(qiáng)大的計(jì)算工具來(lái)分析這些信息。舉個(gè)例子,為了自動(dòng)量化某些專業(yè)科學(xué)問(wèn)題研究的進(jìn)展,自動(dòng)提取和分類論文中的相關(guān)內(nèi)容。

目前普遍認(rèn)為,通過(guò)挖掘這些信息所得到的預(yù)測(cè)遠(yuǎn)比專家的意見更為客觀精確。書目數(shù)據(jù)庫(kù)和在線平臺(tái)——比如,Google Scholar、PubMed、Web of Science、JSTOR、ORCID、EasyChair、和「altmetrics,」——正在使研究人員對(duì)科學(xué)進(jìn)展的深入洞見進(jìn)入一個(gè)新的時(shí)代。

這些努力也帶來(lái)了一個(gè)引人爭(zhēng)議的問(wèn)題:我們最終能夠預(yù)測(cè)重要的發(fā)現(xiàn)和它們的發(fā)現(xiàn)者嗎?就像 Yoshinori Ohsumi 的諾貝爾獎(jiǎng)——對(duì)動(dòng)物細(xì)胞的自我吞噬系統(tǒng)的相關(guān)工作。我們還不知道答案,但這項(xiàng)工作肯定會(huì)使我們?cè)诳茖W(xué)研究這一社會(huì)活動(dòng)的理解上更進(jìn)一步。舉個(gè)例子,一些科學(xué)發(fā)現(xiàn)是很容易被預(yù)測(cè)的(圖.1)。隨著理論和證據(jù)的累積,很明顯一個(gè)發(fā)現(xiàn)將迫在眉睫,就像一幅拼圖中間就缺了那一小塊一樣。人類基因序列的確定和引力波的觀測(cè)就是這種發(fā)現(xiàn)的很好例子。另一方面,一些發(fā)現(xiàn)似乎不可能被預(yù)測(cè),因?yàn)樗鼈兛赡艽砹舜偈刮覀冎匦滤伎颊麄€(gè)問(wèn)題的那一小塊拼圖或者是發(fā)現(xiàn)了正在發(fā)掘的那一部分的新用法。盡管隱喻著這樣的關(guān)鍵創(chuàng)新的小塊有時(shí)是當(dāng)下顯而易見的,就像基因編輯技術(shù),而有時(shí)這些隱喻又需要時(shí)間以使得其余的相關(guān)部分進(jìn)入我們的視野,就像青霉素(第一種抗生素)的例子,我們用了 15 年才實(shí)現(xiàn)它。

圖 1:多意外才能算是一項(xiàng)發(fā)現(xiàn)?

圖 1:多意外才能算是一項(xiàng)發(fā)現(xiàn)?

科學(xué)發(fā)現(xiàn)在相對(duì)于它們各自的已知知識(shí)的不可預(yù)見性這一問(wèn)題上而各有不同。為了說(shuō)明這一觀點(diǎn),我們把 17 個(gè)主要科學(xué)發(fā)現(xiàn)的例子從完全無(wú)法預(yù)計(jì)(如抗生素、基因編輯技術(shù)、以及宇宙微波背景輻射)到可以預(yù)知(如引力波、DNA 的結(jié)構(gòu)、人類基因的編碼)進(jìn)行排列。

通過(guò)使用已發(fā)表成果以及科學(xué)生涯中的現(xiàn)代數(shù)據(jù),科學(xué)學(xué)的研究人員們已經(jīng)開始定義一些在各個(gè)領(lǐng)域內(nèi)普遍認(rèn)同的量化特征,而這些洞見正重新定義科學(xué)學(xué)可預(yù)見性的極限。以下四個(gè)領(lǐng)域具體體現(xiàn)了這些成果:對(duì)過(guò)去發(fā)現(xiàn)的引用量、誰(shuí)得到了相關(guān)的研究職位、科學(xué)的生產(chǎn)力以及在職業(yè)生涯中主要發(fā)現(xiàn)的時(shí)機(jī)。但是,基于這些方面的工作同樣也暗示了它受限于數(shù)據(jù)驅(qū)動(dòng)的對(duì)科學(xué)發(fā)現(xiàn)的預(yù)測(cè)。

現(xiàn)代的文獻(xiàn)數(shù)據(jù)庫(kù)允許研究者輕松匯總和研究引用量,這提供了一種方便但也有爭(zhēng)議的科學(xué)影響力測(cè)量方式。50 多年之前,de Solla Price (1922–1983) 在許多知名的成果中識(shí)別出了驅(qū)動(dòng)引用量的基本機(jī)制,其中當(dāng)前可見度和幸運(yùn)事件能驅(qū)動(dòng)一個(gè)正向反饋循環(huán),這能放大未來(lái)的可見性 (4)。這種「擇優(yōu)依附(preferential attachment)」機(jī)制解釋了論文之間的引用如此不均衡的原因,為什么有的論文能夠得到比典型論文多數(shù)百倍乃至數(shù)千倍的關(guān)注。這個(gè)模型也能對(duì)一個(gè)發(fā)展中的領(lǐng)域內(nèi)的引用積累情況能做出非常好的預(yù)測(cè)。一個(gè)帶有論文的新舊程度及其固有吸引力等控制量的修改過(guò)的版本能為單篇論文的長(zhǎng)期引用量估計(jì)提供預(yù)測(cè),其能表明引用達(dá)到峰值的時(shí)間以及需要多少時(shí)間才能將一項(xiàng)發(fā)現(xiàn)變成一個(gè)常識(shí) (6)。

但是,一些發(fā)現(xiàn)并不遵循這些規(guī)則,這些例外表明,除了可見度、運(yùn)氣和正向反饋,還存在更多與科學(xué)影響力有關(guān)的因素。比如說(shuō),一些論文遠(yuǎn)遠(yuǎn)超出了由簡(jiǎn)單的「擇優(yōu)依附」所做出的預(yù)測(cè) (5,6)。另外還有科學(xué)中的「睡美人」:在很長(zhǎng)一段時(shí)間內(nèi)休眠不被人注意的發(fā)現(xiàn),之后突然得到了很大的關(guān)注 (7-9)。一項(xiàng)在過(guò)去 100 年來(lái)的近 2500 萬(wàn)份自然科學(xué)和社會(huì)科學(xué)出版物上的系統(tǒng)性研究發(fā)現(xiàn)「睡美人」在所有研究領(lǐng)域都有出現(xiàn) (9)。比如,愛因斯坦、波多爾斯基和羅森在 1935 年的關(guān)于量子力學(xué)的論文;Wenzel 在 1936 年關(guān)于防水材料的論文;Rosenblatt 在 1958 年關(guān)于人工神經(jīng)網(wǎng)絡(luò)的論文。沉睡的論文的覺醒可能從根本上來(lái)說(shuō)是無(wú)法被預(yù)測(cè)的,部分原因是在一項(xiàng)發(fā)現(xiàn)的影響顯現(xiàn)之前,科學(xué)本身也必須取得進(jìn)步。

做出什么樣的發(fā)現(xiàn)部分取決于誰(shuí)在做這個(gè)發(fā)現(xiàn)以及他們接受的是什么樣的科學(xué)家訓(xùn)練(10)??茖W(xué)家生產(chǎn)力隊(duì)伍的這些特點(diǎn)是受一小部分頗有聲望的研究機(jī)構(gòu)的博士項(xiàng)目驅(qū)動(dòng)的,這是由用來(lái)訓(xùn)練大多數(shù)職業(yè)研究者的數(shù)據(jù)揭示出的。(11)作為這一優(yōu)勢(shì)的結(jié)果,研究議程以及少量項(xiàng)目的博士生人口統(tǒng)計(jì)學(xué)趨于驅(qū)動(dòng)著科研偏好和整個(gè)生態(tài)系統(tǒng)的生產(chǎn)力構(gòu)成。除了這一穩(wěn)健的模式——85% 的新教員是來(lái)自博士項(xiàng)目到不同層次聲望的研究機(jī)構(gòu)——之外,到目前為止,教員安置顯然是難以預(yù)測(cè)的。利用了職業(yè)生涯早期生產(chǎn)力、博士后訓(xùn)練情況、地理位置、性別方面等更多方面數(shù)據(jù)的模型幾乎很難改善有關(guān)最終職位安置的結(jié)果,跟了解這個(gè)人的學(xué)術(shù)血統(tǒng)后的預(yù)測(cè)效果差不多(12)。這一背景下的準(zhǔn)確預(yù)測(cè)或許需要不同的、更少接觸到的數(shù)據(jù),或者安置結(jié)果根本就是難以預(yù)測(cè)的,因?yàn)檫@取決于潛在不可測(cè)量的因素。

通過(guò)測(cè)量科研生產(chǎn)力以及發(fā)表作品被引用情況,研究人員也已經(jīng)調(diào)查過(guò)了科學(xué)家個(gè)人在職業(yè)生涯中的表現(xiàn)和成就的可預(yù)測(cè)性。一般常識(shí)認(rèn)為生產(chǎn)力——粗糙得說(shuō)就是發(fā)論文的數(shù)量——會(huì)在職業(yè)生涯早期趨于高峰,接下來(lái)是一條長(zhǎng)長(zhǎng)的、逐漸下降的曲線(13),或許日益增加的教學(xué)和服務(wù)任務(wù)影響了科研作品的數(shù)量,降低了創(chuàng)造力等。不過(guò),近期的一項(xiàng)對(duì)四十多年的生產(chǎn)力數(shù)據(jù)分析(針對(duì) 2300 名計(jì)算機(jī)科學(xué)教育人員)表明,個(gè)體生產(chǎn)力存在巨大差異性(14)。通常,最富生產(chǎn)力的時(shí)間集中在成為首席研究人員的最初 8 年中(圖 2),生產(chǎn)力高峰通常出現(xiàn)在首次升職之前。同時(shí),近一半研究人員生產(chǎn)力最高峰的一年會(huì)出現(xiàn)得晚一點(diǎn),有些研究人員的生產(chǎn)力最高峰出現(xiàn)在職業(yè)生涯晚期。

對(duì)于絕大多數(shù)研究人員來(lái)說(shuō),生產(chǎn)力高峰很早就出現(xiàn)了。

(左)熱圖表明 2300 名計(jì)算機(jī)科學(xué)教員職業(yè)生涯中,生產(chǎn)力最高峰年份出現(xiàn)的時(shí)間(以發(fā)表作品數(shù)量為準(zhǔn)),從第一份教職開始,從左到右依次列開。(右)直方圖對(duì)熱圖的橫向進(jìn)行了總結(jié),表明,對(duì)于絕大多數(shù) 研究人員來(lái)說(shuō),他們生產(chǎn)力達(dá)到最高峰的一年通常出現(xiàn)在創(chuàng)立自己實(shí)驗(yàn)室的 8 年內(nèi)。

過(guò)去的作品也意味著,職業(yè)生涯的早中期更有可能做出科學(xué)家個(gè)人最佳科學(xué)發(fā)現(xiàn),比如,被引用最多的作品(15,16)。這一模式意味著主要發(fā)現(xiàn)的出現(xiàn)時(shí)間多少是可以預(yù)測(cè)的。不過(guò),針對(duì) 10,000 名科學(xué)家發(fā)表作品歷史的分析表明,實(shí)際上,一項(xiàng)發(fā)現(xiàn)的影響力和它在職業(yè)生涯中出現(xiàn)的時(shí)機(jī),并無(wú)相關(guān)性。也就是說(shuō),當(dāng)這位科學(xué)家論文按照從第一篇到最后一篇的順序進(jìn)行安排時(shí),他們引用率最高的發(fā)現(xiàn)就是第一篇論文的可能性大致等于可能是第二篇、第十篇甚至最后一篇的可能性(圖 3)。年輕科學(xué)家傾向于成為絕大多數(shù)最主要發(fā)現(xiàn)的發(fā)起人——這一發(fā)現(xiàn)因此也是他們通常更富生產(chǎn)力這一事實(shí)自然而然的結(jié)果,并不必然是職業(yè)早期能力提升的一個(gè)特征。僅憑簡(jiǎn)單的機(jī)會(huì)本身,個(gè)人的最佳發(fā)揮更有可能出現(xiàn)在這位科學(xué)家職業(yè)生涯更富創(chuàng)造力的階段。

圖 3. 在一位科學(xué)家作品序列上任意一點(diǎn)的主要發(fā)現(xiàn)。

這幅柵格圖展示了隨機(jī)挑選的 150 位 物理學(xué)家(17)所有作品的順序,從第一篇到最后一篇,每一行圓圈代表了一為科學(xué)家發(fā)表作品的順序。一行當(dāng)中,藍(lán)色圓點(diǎn)標(biāo)記的是最高影響力的作品。藍(lán)色圓點(diǎn)在表格里的不一致分布以及對(duì)應(yīng) 10,000 調(diào)查者(頂部)柱狀圖的平坦表明,主要科學(xué)發(fā)現(xiàn)什么時(shí)候出現(xiàn),并無(wú)規(guī)律可循。

雖然每位科學(xué)家影響最顯著的論文的相對(duì)時(shí)間可能無(wú)法預(yù)測(cè),但預(yù)測(cè)論文會(huì)被引用的次數(shù)和它是兩碼事(17,18)。具體來(lái)講,援引已發(fā)表論文會(huì)以系統(tǒng)、持續(xù)性的方式因科學(xué)家而異,這與科學(xué)家工作主體的可見性相關(guān),但與研究領(lǐng)域無(wú)關(guān)。這種模式使我們能夠預(yù)測(cè)一個(gè)科學(xué)家最優(yōu)論文的被引用量。關(guān)于科學(xué)家個(gè)人巔峰時(shí)期和幅度的兩個(gè)結(jié)果表明,個(gè)別科學(xué)家成就的某些方面極難預(yù)測(cè),而在其他方面更容易些.

生產(chǎn)力和影響力當(dāng)中,強(qiáng)健以及場(chǎng)外獨(dú)立(field-independent)模式,以及研究建議評(píng)估中有關(guān)偏差的證據(jù),對(duì)目前為大多數(shù)科學(xué)研究提供資金的方式提出了質(zhì)疑。比如,觀察及實(shí)驗(yàn)研究表明,女性、非白人研究者(19,20)或側(cè)重于跨學(xué)科研究(21)的項(xiàng)目申請(qǐng)獲得資助的可能性更低。同樣,最具創(chuàng)造力與影響力的時(shí)間集中于科研生涯的前十年,這似乎證明將資金從較年長(zhǎng)的科學(xué)家向年輕科學(xué)家轉(zhuǎn)移的舉措具有合理性。NIH 長(zhǎng)期支持早期研究者便是一個(gè)顯著實(shí)例,盡管其成功很有限——因?yàn)?NIH 對(duì) 40 歲以下科學(xué)家的獎(jiǎng)勵(lì)數(shù)量仍低于 30 年前的峰值(22)。另一方面,有人可能認(rèn)為盡管外部資金不平衡,年輕的研究人員往往更有成效??茖W(xué)的科學(xué)根據(jù)這些情況確定了一個(gè)重要的模式,但根本原因的確定則需進(jìn)一步調(diào)查與主動(dòng)性實(shí)驗(yàn)。

引用、出版量、職業(yè)發(fā)展、學(xué)術(shù)獎(jiǎng)項(xiàng)以及其他通用度量是最佳原始數(shù)量,而如今我們可能正在接近它們能夠告知的關(guān)于科學(xué)生態(tài)系統(tǒng)及其發(fā)現(xiàn)生產(chǎn)的信息極限。這些度量是科學(xué)前沿進(jìn)展的滯后指標(biāo),它們能夠預(yù)測(cè)新領(lǐng)域的出現(xiàn)或重大發(fā)現(xiàn)的可能性也許會(huì)很低??茖W(xué)的科學(xué)中存在一個(gè)根本問(wèn)題:能否使用更及時(shí)或具體情境的科學(xué)家的工作數(shù)據(jù)來(lái)進(jìn)行更準(zhǔn)確的預(yù)測(cè),例如論文的內(nèi)容、預(yù)印本數(shù)據(jù)、科學(xué)研討會(huì)、科研團(tuán)隊(duì)溝通、被拒稿件、資助申請(qǐng)及其同行評(píng)議,甚至是社交媒體。我們應(yīng)當(dāng)使用控制實(shí)驗(yàn)來(lái)揭示大型數(shù)字?jǐn)?shù)據(jù)庫(kù)中所觀察的模式中的因果機(jī)制,并探討可測(cè)量的量與我們的解釋之間的關(guān)系,如引用計(jì)數(shù)如何反映感知的科學(xué)影響(23)。

「... 我們有責(zé)任確保使用預(yù)測(cè)工具不會(huì)阻礙未來(lái)的發(fā)現(xiàn),將弱勢(shì)群體邊緣化...」

其中引用和出版量是以往成功的度量,它們展現(xiàn)出創(chuàng)造愈發(fā)豐富的動(dòng)態(tài)的反饋循環(huán)。當(dāng)與具有現(xiàn)代科學(xué)出版、投資和聘用特性的超競(jìng)爭(zhēng)力相結(jié)合時(shí),由于在未來(lái)成功的機(jī)會(huì)的分配中有一部分基于最近成功的標(biāo)記,這種反饋循環(huán)則可能在成功中產(chǎn)生顯著的不平等。然而貫穿科學(xué)發(fā)現(xiàn)許多方面的深度不可預(yù)測(cè)性表明,過(guò)度依賴這些度量能夠產(chǎn)生自我實(shí)現(xiàn)的預(yù)測(cè)(24),這最終縮小了科學(xué)創(chuàng)新的范圍,并將注意力從潛在、基本但不可預(yù)測(cè)的進(jìn)展中移走。未來(lái)研究的一個(gè)重要方向必定是制定成功的度量和不易受反饋循環(huán)影響的評(píng)價(jià)系統(tǒng)。

而存在的一個(gè)隱患是:資助者、出版商和大學(xué)可能利用大型書目數(shù)據(jù)庫(kù)來(lái)創(chuàng)建新的系統(tǒng),自動(dòng)評(píng)估項(xiàng)目申請(qǐng)、手稿或年輕學(xué)者的未來(lái)「影響」。這種數(shù)據(jù)挖掘工作應(yīng)當(dāng)非常謹(jǐn)慎。它們的使用由于側(cè)重與以往成功的原始指標(biāo)相關(guān)的細(xì)微相關(guān)性,便可能輕易對(duì)創(chuàng)新造成阻礙,并加劇現(xiàn)存科學(xué)系統(tǒng)的不平等。畢竟新的發(fā)現(xiàn)由于從未被看到過(guò)而非常有價(jià)值,而數(shù)據(jù)挖掘技術(shù)只能了解過(guò)去做了什么。自動(dòng)化系統(tǒng)的必然出現(xiàn)使得科學(xué)界必須指導(dǎo)他們的發(fā)展與使用,以便納入機(jī)器學(xué)習(xí)中的公平、問(wèn)責(zé)和透明的原則(25,26)。我們有責(zé)任確保預(yù)測(cè)工具的使用不會(huì)阻礙未來(lái)的發(fā)現(xiàn)、邊緣化弱勢(shì)群體、排除新想法或阻礙跨學(xué)科研究與新領(lǐng)域的發(fā)展。

就像生物生態(tài)系統(tǒng)適應(yīng)選擇壓力一樣,科學(xué)生態(tài)系統(tǒng)最終將適應(yīng)不斷變化的科學(xué)激勵(lì)和需求(27)。隨著壓力改變,科學(xué)家們將適應(yīng)或者退休,將生存與增殖的實(shí)踐親身傳授給他們的學(xué)生。然而令人不安的是,諾貝爾獎(jiǎng)獲得者幾乎每年都聲稱他們最大的發(fā)現(xiàn)在現(xiàn)存的研究環(huán)境中本不可能。2016 年,Ohsumi 聲稱「如今科學(xué)家愈發(fā)需要為他們的研究提供即時(shí)而明確的應(yīng)用」(28)。這類對(duì)于未料想到的可預(yù)測(cè)型發(fā)現(xiàn)的普遍重視會(huì)孕育出另類的、更具冒險(xiǎn)精神的科學(xué)家。而結(jié)果可能會(huì)是凈化選擇的一種危險(xiǎn)形式,這種形式下的年輕科學(xué)家會(huì)優(yōu)化他們的研究并向一種趨勢(shì)靠攏,這種趨勢(shì)與我們每年評(píng)出的具有突出科學(xué)貢獻(xiàn)的科學(xué)家類型不相適應(yīng).

根據(jù)生態(tài)學(xué)及進(jìn)化理論改進(jìn)觀點(diǎn)在更好地整體性理解并預(yù)測(cè)科學(xué)生態(tài)系統(tǒng)方面極具潛力。這方面的進(jìn)展將有助于我們避免由于多樣性的喪失而造成的創(chuàng)新上的損失。作為共同體,我們必須制定培養(yǎng)一個(gè)多元化的科學(xué)生態(tài)系統(tǒng)的制度,包括 Freeman Dyson 談到的俯瞰遠(yuǎn)方的鳥和探索細(xì)節(jié)的青蛙(29)、逆向、流浪者、工具建設(shè)者等。然而,在科學(xué)家之間實(shí)現(xiàn)這種多樣化選擇的實(shí)際細(xì)節(jié)仍不清晰。真正的生態(tài)研究依賴于觀察研究與主動(dòng)性實(shí)驗(yàn)的結(jié)合。然而,科學(xué)的科學(xué)中的大多數(shù)工作純粹是觀察性的,并且增加主動(dòng)性實(shí)驗(yàn)(30)將需要源于定義適應(yīng)性景觀的資助機(jī)構(gòu)、出版商和管理員的關(guān)注、魄力和勇氣。如果說(shuō)科學(xué)的科學(xué)能夠教我們什么,那便是科學(xué)本身可以用科學(xué)的方法探測(cè),而我們定會(huì)愚蠢地忽略實(shí)驗(yàn)。

在新的數(shù)據(jù)源、新實(shí)驗(yàn)和新想法的驅(qū)動(dòng)下,我們期盼科學(xué)的科學(xué)可以產(chǎn)生更多有關(guān)社會(huì)過(guò)程并能導(dǎo)致科學(xué)發(fā)現(xiàn)的振奮人心的洞察。研究已經(jīng)表明,這些發(fā)現(xiàn)的某些方面是可預(yù)測(cè)的,并且它們?cè)诤艽蟪潭壬吓c以往發(fā)現(xiàn)的引用隨時(shí)間積累的途徑相關(guān)。然而在其他方面可能根本上就不可預(yù)測(cè)。這些限制在如今的大數(shù)據(jù)與人工智能時(shí)代是微不足道的見解,并表明用于產(chǎn)生科學(xué)發(fā)現(xiàn)的更可靠引擎可能是培養(yǎng)和保持科學(xué)家健全的生態(tài)系統(tǒng),而非專注于預(yù)測(cè)個(gè)體發(fā)現(xiàn)。

三、超越預(yù)測(cè):使用大數(shù)據(jù)解決政策問(wèn)題

最近,科學(xué)、產(chǎn)業(yè)以及政府領(lǐng)域分析的爆炸增長(zhǎng),以尋求「大數(shù)據(jù)(big data)」的幫助來(lái)解決各種問(wèn)題。日益增長(zhǎng)的大數(shù)據(jù)應(yīng)用使用了有監(jiān)督的機(jī)器學(xué)習(xí)(SML/supervised machine learning)工具。在描述這一工具有望用來(lái)解決臨床醫(yī)學(xué)問(wèn)題時(shí),Obermeyer 等人評(píng)論到:「機(jī)器學(xué)習(xí)……就像醫(yī)生通過(guò)實(shí)習(xí)獲得進(jìn)步那樣來(lái)解決問(wèn)題:從數(shù)據(jù)中學(xué)習(xí)規(guī)則。開始是病人觀測(cè)值,然后算法篩選大量變量、尋找可靠的預(yù)測(cè)結(jié)果的組合……機(jī)器學(xué)習(xí)的優(yōu)勢(shì)就是可以處理大量預(yù)測(cè)因素(predictor)——有時(shí)還驚人地預(yù)測(cè)因素比觀測(cè)值還多,并以非線性、高度交互的方式將它們組合起來(lái)。」

SML 技術(shù)最初出現(xiàn)在計(jì)算機(jī)科學(xué)和工程學(xué)領(lǐng)域,已被廣泛用于工程應(yīng)用,比如搜索引擎和圖像分類。最近,用這一方法解決科學(xué)和政策問(wèn)題的應(yīng)用數(shù)量也越來(lái)越多。在公共領(lǐng)域,這一方法模型已經(jīng)被用于刑事司法制度(2);使用移動(dòng)數(shù)據(jù)、衛(wèi)星圖像或谷歌街景(3、4、5)預(yù)測(cè)經(jīng)濟(jì)狀況;分配城市火警、健康監(jiān)察點(diǎn)等,以及各種城市應(yīng)用。該技術(shù)已經(jīng)被用于分類文本中的政治偏見(8)以及評(píng)論中的情感分析。在醫(yī)學(xué)領(lǐng)域,基于有監(jiān)督的機(jī)器學(xué)習(xí)預(yù)測(cè)算法已經(jīng)被醫(yī)院用于按照病人的并發(fā)癥的風(fēng)險(xiǎn)預(yù)測(cè)病情,優(yōu)先安排病人的醫(yī)療干預(yù) (10),該技術(shù)還被廣泛用于多種其它醫(yī)療應(yīng)用,包括個(gè)性化醫(yī)療(1)。

有監(jiān)督的機(jī)器學(xué)習(xí)的迅速普及部分歸功于數(shù)據(jù)、計(jì)算技術(shù)以及資源、數(shù)據(jù)分析技術(shù)、開源軟件方面的進(jìn)步。另一個(gè)因素這些技術(shù)被設(shè)計(jì)用來(lái)解決的問(wèn)題很簡(jiǎn)單?,F(xiàn)成的預(yù)測(cè)技術(shù)要發(fā)揮作用幾乎不用什么假設(shè)(assumption):環(huán)境必須穩(wěn)定、其行為正被研究的單元個(gè)體不會(huì)互動(dòng)或相互干擾。在許多應(yīng)用中,SML 可以被對(duì)問(wèn)題領(lǐng)域所知甚少的科學(xué)家成功地加以應(yīng)用。比如,Kaggle 公司主辦的預(yù)測(cè)競(jìng)賽(www.kaggle.com/competitions)中,贊助商提供數(shù)據(jù)組,來(lái)自世界各地的選手提交的作品常常能成功預(yù)測(cè),無(wú)論其關(guān)于問(wèn)題的背景多么有限。

然而,對(duì)純預(yù)測(cè)方法的局限性的關(guān)注要少得多。當(dāng)這一方法被用于現(xiàn)成的預(yù)測(cè),而沒有理解基本假設(shè)或確保滿足諸如穩(wěn)定性等條件時(shí),結(jié)論的有效性和有用性就會(huì)受到損害。一個(gè)更加深入的擔(dān)憂時(shí),只使用預(yù)測(cè)技術(shù)是否就能解決給定問(wèn)題,或者是否需要對(duì)干擾的因果效應(yīng)(causal effect)進(jìn)行評(píng)估的統(tǒng)計(jì)方法。

Kleinberg 等人(11)強(qiáng)調(diào)了這一情況,現(xiàn)有的 SML 技術(shù)可以部分(但無(wú)法全部)解決健康政策領(lǐng)域的資源分配問(wèn)題。他們考慮的問(wèn)題是決定是否通過(guò)醫(yī)療保險(xiǎn)給否則不合格的病人做髖關(guān)節(jié)置換手術(shù)。他們使用 SML 預(yù)測(cè)概率(一個(gè)要進(jìn)行關(guān)節(jié)置換手術(shù)的患者是否會(huì)因其他因素在一年內(nèi)死亡),以及識(shí)別那些處在特殊高風(fēng)險(xiǎn),不該進(jìn)行關(guān)節(jié)置換手術(shù)的患者。他們認(rèn)為:「好處會(huì)隨著時(shí)間的推移自然顯現(xiàn),因此,如果某人能獲得夠久來(lái)享受手術(shù)的好處,那么手術(shù)才有意義;給不久就會(huì)死亡的病人置換關(guān)節(jié)沒什么價(jià)值——浪費(fèi)金錢,給生命的最后徒增不必要的痛苦?!?/p>

這類問(wèn)題中,聚焦預(yù)測(cè)的基本原理是很明顯的;我們知道,一個(gè)干預(yù)的平均影響,在某種世界狀態(tài)下,也是負(fù)面的(如果病人很快死亡),因此,預(yù)測(cè)世界狀態(tài)足以用來(lái)預(yù)測(cè)是否放棄手術(shù)這一決定。不過(guò),作者強(qiáng)調(diào)了這一事實(shí):純粹的預(yù)測(cè)方法并不能解決更加復(fù)雜的問(wèn)題,比如,在那些可能存活超過(guò)一年的病人中,哪些病人該被給予最高的手術(shù)優(yōu)先性。一個(gè)完整的資源分配問(wèn)題需要評(píng)估手術(shù)效果的異質(zhì)性,比如,因?yàn)橐恍┎∪擞懈叩氖中g(shù)并發(fā)癥。將稀缺資源優(yōu)化分配給手術(shù)效果能最大改善其福利的病人,是一個(gè)更加困難的問(wèn)題,這個(gè)問(wèn)題太長(zhǎng)需要回答反事實(shí)的問(wèn)題:采取那些以前從未實(shí)施過(guò)的各種替代分配政策后,會(huì)發(fā)生什么?

在另一個(gè)資源分配樣例中,產(chǎn)業(yè)領(lǐng)域很常見,就是使用 SML 預(yù)測(cè)客戶流失(即消費(fèi)者放棄一家公司服務(wù))的概率,然后公司對(duì)那些具有高度流失風(fēng)險(xiǎn)的用戶給予干預(yù)(比如擴(kuò)大銷售人員的服務(wù)范圍),以這樣的方式解決問(wèn)題。Ascarza (12) 記錄了采取這類舉措的公司,然后使用借鑒自因果推理論文獻(xiàn)的方法提供了經(jīng)驗(yàn)證明:根據(jù)一個(gè)簡(jiǎn)單的預(yù)測(cè)模型來(lái)分配資源,并非最優(yōu)的做法。高度流失用戶組群和最優(yōu)可能回應(yīng)干預(yù)組群之間的重合只有 50%。因此,將留住用戶的問(wèn)題視為一個(gè)預(yù)測(cè)問(wèn)題,為公司帶來(lái)了更低的回報(bào)。

公共領(lǐng)域的資源分配問(wèn)題是指一個(gè)城市應(yīng)該優(yōu)化分配監(jiān)察點(diǎn)的地點(diǎn),以最小化安全或健康問(wèn)題。紐約的 Firecast 算法是根據(jù)預(yù)測(cè)的違反概率來(lái)分配火警監(jiān)察點(diǎn)。Glaeser 等人 (6) 發(fā)明了一個(gè)類似的系統(tǒng)用于分配健康監(jiān)測(cè)點(diǎn)(這對(duì)波士頓餐廳)的位置,該系統(tǒng)得到了應(yīng)用,初步估計(jì)每次檢查后,30% 到 50% 的違法情況得到了改善。

如何優(yōu)化監(jiān)測(cè)點(diǎn)分配的決策問(wèn)題將直接歸于預(yù)測(cè)領(lǐng)域——如果以下簡(jiǎn)化假設(shè)為真:(1)被檢查單個(gè)單位的行為是固定的;(2)識(shí)別出問(wèn)題時(shí),能立刻低成本加以解決,成本并不因?yàn)閱挝?unit)不同而所有不同。知道哪個(gè)單位更有可能違法,等于知道哪個(gè)單位應(yīng)該得到監(jiān)察。不過(guò),更加現(xiàn)實(shí)的環(huán)境還集成了不同單位的異質(zhì)性:一個(gè)建筑可能因?yàn)槔匣碾娐范幵诟叩氖Щ痫L(fēng)險(xiǎn)中,但另一些考慮會(huì)讓置換老線路變得困難。另一些單位的預(yù)測(cè)風(fēng)險(xiǎn)更低,但是,更容易做出實(shí)質(zhì)改善,改善成本也低廉。另一個(gè)考慮是回應(yīng)(responsiveness)。如果違法被處以罰金,一些公司會(huì)比其他公司對(duì)罰金更加敏感。整體說(shuō)來(lái),解決城市監(jiān)察點(diǎn)分配的問(wèn)題包括評(píng)估監(jiān)察政策的因果性:在新的監(jiān)測(cè)點(diǎn)分配機(jī)制下,你希望這個(gè)城市里單位(比如,食物中毒率)的整體質(zhì)量有什么樣的提升?

因此,預(yù)測(cè)和因果推論是本質(zhì)不同的兩個(gè)問(wèn)題(盡管密切相關(guān))。只有分析師超過(guò)這些預(yù)測(cè)方法來(lái)做出假設(shè)時(shí),因果推理才是可能的;這些假設(shè)通常不能被直接測(cè)試,因此需要領(lǐng)域?qū)<襾?lái)進(jìn)行驗(yàn)證。已經(jīng)有關(guān)于因果推論的橫跨多學(xué)科(社會(huì)科學(xué)、計(jì)算機(jī)科學(xué)、醫(yī)學(xué)、統(tǒng)計(jì)學(xué)、工程學(xué)以及流行病學(xué))大型文獻(xiàn)來(lái)分析這類問(wèn)題(參看 Imbens and Rubin (13))。使用并非從隨機(jī)測(cè)試中獲取的數(shù)據(jù)來(lái)評(píng)估因果關(guān)系的辦法之一就是針對(duì)導(dǎo)致微分檢測(cè)概率(differential inspection probabilities)的因素進(jìn)行調(diào)整,然后根據(jù)特定餐館健康結(jié)果 預(yù)測(cè)檢查的效果(或許使用審計(jì))。近期的方法進(jìn)展關(guān)注的是調(diào)節(jié)大數(shù)據(jù)應(yīng)用中觀察到的混雜因素(比如,14–16)這一文獻(xiàn)的主題之一就是現(xiàn)有的來(lái)自 SML 的預(yù)測(cè)模型招致了因果效果預(yù)測(cè)中的偏差問(wèn)題,但是,持續(xù)有效的因果估計(jì)能夠通過(guò)修改 SML 技術(shù)得以實(shí)現(xiàn)。

另一個(gè)用于估計(jì)因果效應(yīng)的方法就是利用設(shè)計(jì)好的實(shí)驗(yàn)。Blake et al. (17) 使用了一個(gè)以城市為基礎(chǔ)的雙重差法(difference-in-difference methodology)來(lái)評(píng)估 eBay 的搜索廣告的效果(因果)。就像許多搜索廣告商,eBay 靠歷史數(shù)據(jù)來(lái)測(cè)量搜索廣告的好處,不過(guò),也確實(shí)試著區(qū)分開因果性和關(guān)聯(lián)性。而且,eBay 使用一個(gè)簡(jiǎn)單的預(yù)測(cè)模型(其中,點(diǎn)擊被用來(lái)預(yù)測(cè)銷售)測(cè)量了廣告的效果,他們發(fā)現(xiàn)廣告點(diǎn)擊的投入回報(bào)(也就是說(shuō),由點(diǎn)擊所貢獻(xiàn)的 eBay 銷售與廣告點(diǎn)擊成本之比)大約為 1400%。

通過(guò)使用實(shí)驗(yàn)數(shù)據(jù)測(cè)量廣告效果,作者發(fā)現(xiàn)真實(shí)的投入回報(bào)為 63%。天真的分析和實(shí)驗(yàn)結(jié)果之間存在鴻溝的部分原因是許多點(diǎn)擊 eBay 搜索廣告的用戶本來(lái)是要從 eBay 買東西的。盡管點(diǎn)擊廣告強(qiáng)烈預(yù)示著一次交易——消費(fèi)者通常會(huì)在點(diǎn)擊之后迅速購(gòu)物——實(shí)驗(yàn)揭示出,一次點(diǎn)擊很難說(shuō)有大的因果效應(yīng),因?yàn)椴还茉趺凑f(shuō),點(diǎn)擊的消費(fèi)者很可能要購(gòu)物。

除了資源分配問(wèn)題之外,純預(yù)測(cè)和因果推斷之間的區(qū)別幾十年來(lái)一直是很多領(lǐng)域內(nèi)方法和經(jīng)驗(yàn)研究的主題。經(jīng)濟(jì)學(xué)對(duì)這個(gè)區(qū)別特別關(guān)注,或許是因?yàn)橐恍┳罨镜慕?jīng)濟(jì)問(wèn)題,如在不同的價(jià)格下消費(fèi)者的需求變化,不能通過(guò)純預(yù)測(cè)模型來(lái)得到答案。舉個(gè)例子,同一個(gè)產(chǎn)品在不同(假定的)的價(jià)格水平下,消費(fèi)者的購(gòu)買量是多少?雖然這個(gè)問(wèn)題似乎看起來(lái)可以直接套用 SML,將價(jià)格水平設(shè)置為一個(gè)說(shuō)明性的特征(feature)來(lái)預(yù)測(cè)出銷售量的「結(jié)果」。在實(shí)際操作時(shí),如果 SML 被用作一個(gè)估計(jì)價(jià)格與銷售量之間的因果效應(yīng)的方法,這個(gè)方法將會(huì)很失敗。假設(shè),一個(gè)分析師有酒店價(jià)格和入住率的歷史數(shù)據(jù)。一般情況下,價(jià)格和入住量是正相關(guān)的,因?yàn)榫频昙扔械膬r(jià)格政策(經(jīng)常通過(guò)利潤(rùn)管理軟件來(lái)制定)明確規(guī)定當(dāng)酒店預(yù)訂越來(lái)越滿時(shí)酒店提高價(jià)格。直接套用 SML 技術(shù)的應(yīng)用是為回答以下類型的問(wèn)題所設(shè)計(jì):如果一個(gè)分析師被告知在某天,客房?jī)r(jià)格非比尋常的高,那么這天最準(zhǔn)確的入住量預(yù)測(cè)是多少?正確的答案是入住量將很可能很高。相反,改變價(jià)格政策的影響問(wèn)題是一個(gè)因果問(wèn)題,并且一般經(jīng)驗(yàn)表明如果公司執(zhí)行一項(xiàng)新政策來(lái)系統(tǒng)性的提高酒店所有服務(wù)價(jià)格的 5%,那么酒店將很可能會(huì)有更多房間被入住。另一個(gè)不同系列的統(tǒng)計(jì)技術(shù)將可以用于回答這樣的問(wèn)題,或許可以利用數(shù)據(jù)中「自然的實(shí)驗(yàn)」即一個(gè)被稱之為「工具變量」的方法 [13 是對(duì)這些技術(shù)的回顧]。最近,一些作者將 SML 的優(yōu)勢(shì)同這些傳統(tǒng)小數(shù)據(jù)系列的方法結(jié)合起來(lái)了,為了用于估計(jì)典型因果效應(yīng)和私人化的因果效應(yīng)估計(jì)。

預(yù)測(cè)與因果推斷之間的區(qū)別之外,僅為預(yù)測(cè)而做的方法優(yōu)化也不能顧及到其他因素,這些因素可能在數(shù)據(jù)驅(qū)動(dòng)的政策分析或者資源分配上很重要。例如,動(dòng)機(jī)和可操控性可以很重要。如果一個(gè)建筑或者餐廳所有者依據(jù)這些特征,預(yù)料到被審查的可能性很小,他或她將減少安全措施上的投入。

在一個(gè)數(shù)據(jù)驅(qū)動(dòng)政策的例子中,可操作性發(fā)揮了作用,不列顛哥倫比亞的市場(chǎng)定價(jià)系統(tǒng)(MPS)被用于對(duì)國(guó)有土地的木材收購(gòu)的定價(jià),這些國(guó)有土地是在長(zhǎng)期租約下被分配給木材公司的。MPS 構(gòu)建出一個(gè)可以預(yù)測(cè)的模型,這個(gè)模型所運(yùn)用的數(shù)據(jù)來(lái)自拍賣中木材的售價(jià),該模型可以用于預(yù)測(cè)如果將長(zhǎng)期租約下的一片土地的收獲木材拍賣所可能達(dá)到的價(jià)格。但是,一個(gè)租約持有者潛在很可能有在拍賣中人為低價(jià)競(jìng)標(biāo)的動(dòng)機(jī),從而達(dá)到影響模型對(duì)長(zhǎng)期租約下收獲木材的價(jià)格預(yù)測(cè),也即降低了他們長(zhǎng)期租約下收獲木材的成本。作為模型選擇過(guò)程的一部分,MPS 的預(yù)測(cè)模型服從于仿真情境,使得任何單個(gè)大型木材公司都能實(shí)現(xiàn)各自的可操作性。這個(gè)已經(jīng)實(shí)現(xiàn)的模型并不是一個(gè)具有最好的預(yù)測(cè)性能的模型,最好的預(yù)測(cè)模型具有期望擁有的魯棒性而不是可操作性。

在實(shí)際運(yùn)用統(tǒng)計(jì)模型時(shí),很多其他需要考慮的問(wèn)題涌現(xiàn)出來(lái)。有時(shí)候讓利益相關(guān)者理解一個(gè)已做出的決定的緣由是很重要的,或者決策者可能需要記住一個(gè)決策規(guī)則(如醫(yī)生)?;谕该鞫群涂山忉屝缘目紤],或許會(huì)導(dǎo)致分析師們偏好模型的簡(jiǎn)單性而犧牲模型的預(yù)測(cè)能力。另外一個(gè)需要考慮的是公平性或者說(shuō)歧視。美國(guó)貸放款的消費(fèi)者保護(hù)法禁止實(shí)際應(yīng)用中有依據(jù)種族的歧視。一些公司可能希望運(yùn)用 SML 方法從工作申請(qǐng)者中挑選出可以面試的申請(qǐng)者;但是他們可能希望在算法中設(shè)置多樣性目標(biāo),或者最起碼可以阻止性別和種族的不平等。在 SML 的文獻(xiàn)中可以看到這些問(wèn)題在最近受到關(guān)注(如 21)。

總的來(lái)說(shuō),大數(shù)據(jù)如果想要在商業(yè)、科學(xué)以及政策上實(shí)現(xiàn)其全部潛力,從有監(jiān)督的機(jī)器學(xué)習(xí)的文獻(xiàn)來(lái)看,需要有由新的計(jì)算機(jī)算法所構(gòu)建的多學(xué)科方法;同時(shí)還能帶來(lái)使用經(jīng)驗(yàn)證據(jù)來(lái)引導(dǎo)政策的數(shù)十年多學(xué)科研究的方法和實(shí)際學(xué)習(xí)。一個(gè)不成熟的但是快速成長(zhǎng)的研究采取了這樣的一個(gè)方法:例如,2016 年的 ICML(International Conference on Machine Learning)對(duì) SML 方法的因果推斷(casual inference)、可解釋性(interpretability)以及可靠性(reliability)分別組建研討會(huì),雖然谷歌(22)、Facebook(23)和微軟(24)的多學(xué)科研究團(tuán)隊(duì)已經(jīng)開發(fā)出了可以使用的工具包,且這些工具包擁有為實(shí)現(xiàn)因果推斷、實(shí)驗(yàn)性的設(shè)計(jì)以及估計(jì)最優(yōu)資源分布政策的可擴(kuò)展算法。隨著其他領(lǐng)域持續(xù)加入和 SML 研究團(tuán)體一起用大數(shù)據(jù)來(lái)尋求現(xiàn)實(shí)世界政策問(wèn)題的解決方案,我們預(yù)計(jì)數(shù)據(jù)驅(qū)動(dòng)的政策在算法提升和成功實(shí)現(xiàn)上將會(huì)有更大的機(jī)會(huì)。

四、預(yù)測(cè)人類行為:下一個(gè)前沿

機(jī)器學(xué)習(xí)的進(jìn)步正在變革我們對(duì)線下(offline)和線上(online)人類行為的理解。從訓(xùn)練集中分類我們感興趣的對(duì)象,無(wú)論這些對(duì)象是恐怖分子、需要維護(hù)的機(jī)器或包含惡意鏈接的電子郵件,其都代表了這一領(lǐng)域內(nèi)的巨大成功。或許不存在一種機(jī)器學(xué)習(xí)算法能將所有都做好。雖然精度是至關(guān)重要的,但是可接受的精度程度是隨著研究問(wèn)題的變化而變化的,僅僅只有精度是遠(yuǎn)遠(yuǎn)不夠的。研究人員經(jīng)常解釋為什么他們的預(yù)測(cè)是正確的,但是從不解釋為什么他們的預(yù)測(cè)可能也是錯(cuò)誤的。那么決策制定者同時(shí)了解這兩部分的原因?qū)⒂欣谒麄冎贫ǜ玫臎Q策。特別是在高風(fēng)險(xiǎn)的情況下,預(yù)測(cè)必須同時(shí)提供相應(yīng)的解釋,這樣才能為進(jìn)一步研究提供更深入場(chǎng)景理解。

預(yù)測(cè)模型還必須為潛在的未來(lái)行動(dòng)提供一個(gè)或多個(gè)解決方案,這樣決策者才能更好地決策。如今的機(jī)器學(xué)習(xí)方法并不一定滿足這三個(gè)標(biāo)準(zhǔn)。因?yàn)闃?gòu)成理想的預(yù)測(cè)算法還是取決于現(xiàn)實(shí)應(yīng)用。通常,利益相關(guān)集團(tuán)(如社會(huì)媒體平臺(tái)和搜索引擎)將對(duì)精度有不同的定義,從而滿足其特定的需求。此外,行業(yè)專家可以使用領(lǐng)域內(nèi)廣博的知識(shí)建議在數(shù)據(jù)集內(nèi)包含相關(guān)的獨(dú)立變量。通常,他們將使用由預(yù)測(cè)模型生成的技術(shù)精度測(cè)量和他們的學(xué)科中的內(nèi)容結(jié)合起來(lái)解釋預(yù)測(cè)結(jié)果,所有這些都表明在現(xiàn)實(shí)世界體系中,計(jì)算機(jī)科學(xué)家需要和其他利益相關(guān)者進(jìn)行合作而取得深遠(yuǎn)影響的結(jié)果。

在我們看來(lái),下一代的預(yù)測(cè)模型需要解決以下四個(gè)主要的挑戰(zhàn)。

首先,更多數(shù)據(jù)總會(huì)獲得更好的預(yù)測(cè)模型這一格言并不總是正確的,因?yàn)閿?shù)據(jù)中的噪點(diǎn)可能會(huì)壓垮預(yù)測(cè)模型。處理噪點(diǎn)、不完整和不一致數(shù)據(jù)的能力將會(huì)是下一代預(yù)測(cè)模型的核心。例如,在推特上識(shí)別「bots」就是尋求在政治候選人上持正觀點(diǎn),而忽略尋求其它結(jié)果的大量「bots」。例如傳播垃圾郵件、尋求在其他主題上影響他們的觀點(diǎn)或欺騙用戶點(diǎn)擊鏈接從而為他們創(chuàng)造利潤(rùn)的機(jī)器人。此外,許多推特的數(shù)據(jù)是受到限制的,在一些情況下甚至?xí)室猱a(chǎn)生誤導(dǎo)。所以機(jī)器人開發(fā)者就需要確保他們的機(jī)器人逃避檢測(cè)。

第二個(gè)挑戰(zhàn)是罕見事件預(yù)測(cè)。例如,公司監(jiān)控其內(nèi)部網(wǎng)絡(luò)來(lái)識(shí)別可能會(huì)竊取機(jī)密的用戶將會(huì)包含所有公司雇員的在公司內(nèi)部網(wǎng)絡(luò)活動(dòng)的信息,其范圍包括從對(duì)員工的郵件分析、上傳(到網(wǎng)站)到下載到內(nèi)存存儲(chǔ)設(shè)備等。許多雇員對(duì)公司是誠(chéng)實(shí)的,只有一小部分可能會(huì)存在問(wèn)題。在這樣一個(gè)案例中,機(jī)器學(xué)習(xí)算法將很難從無(wú)辜用戶(這種情況下,數(shù)據(jù)稱為「不平衡」)中分離清楚那些「稀有」的個(gè)例,并且預(yù)測(cè)模型一般表現(xiàn)不太好。

預(yù)測(cè)新現(xiàn)象時(shí)保持模型的準(zhǔn)確性是重要的第三步。社會(huì)運(yùn)動(dòng)常被分為五個(gè)步驟:導(dǎo)火索、社會(huì)動(dòng)蕩增加、發(fā)展組織核心成員、組織的維持和終止(假如運(yùn)動(dòng)最終消亡了)。當(dāng)事件還處于早期階段(如有人開始在 Twitter 上抱怨),準(zhǔn)確預(yù)測(cè)之后發(fā)展的動(dòng)向可以讓我們?cè)谄浜蟾蛹ち业臎_突中受益。

第四個(gè)因素是人類的行為是動(dòng)態(tài)變化的。我們的對(duì)手(如惡意軟件開發(fā)者或恐怖分子)會(huì)不斷適應(yīng)環(huán)境。因此,高階預(yù)測(cè)(關(guān)于預(yù)測(cè)模型的預(yù)測(cè))的形式成為了關(guān)鍵。我們需要預(yù)測(cè)模型何時(shí)出錯(cuò),或何時(shí)人們行的為將發(fā)生改變,因此我們?cè)谔噱e(cuò)誤發(fā)生之前就可以開發(fā)出新的預(yù)測(cè)模型。OpFake Android 惡意軟件的開發(fā)者最初設(shè)計(jì)這個(gè)病毒自動(dòng)從受感染的手機(jī)發(fā)送短信給高價(jià)付費(fèi)服務(wù)號(hào)碼。后來(lái),開發(fā)者調(diào)整了策略,也開始涉足銀行卡欺詐。我們迫切地需要開發(fā)可以在發(fā)生時(shí)或甚至在發(fā)生之前識(shí)別這些危險(xiǎn)行為的預(yù)測(cè)模型。

開源數(shù)據(jù)的爆炸和機(jī)器學(xué)習(xí)的發(fā)展徹底改變了我們分析人類行為的方式。在未來(lái)的幾年里,隨著物聯(lián)網(wǎng)的發(fā)展,這種多樣性會(huì)出現(xiàn)又一次爆炸——異構(gòu)數(shù)據(jù)。我們可能會(huì)遇到與不完整,不一致,不平衡和混亂數(shù)據(jù)相關(guān)的問(wèn)題。生成準(zhǔn)確預(yù)測(cè)和高質(zhì)量分析的能力,包括對(duì)預(yù)測(cè)的支持和證據(jù),以及提供可操作決策的能力,將是決定性的,因?yàn)闄C(jī)器學(xué)習(xí)系統(tǒng)將無(wú)處不在。一個(gè)數(shù)據(jù)驅(qū)動(dòng),多學(xué)科,多利益相關(guān)者的方法對(duì)于預(yù)測(cè)未來(lái)的模型而言至關(guān)重要。

五、特刊其他幾篇文章的摘要

(一)在線民調(diào):人民的脈搏

在線民調(diào)系統(tǒng)會(huì)成為民調(diào)預(yù)測(cè)工具,甚至替代品嗎?傳統(tǒng)的民意調(diào)查,無(wú)論是通過(guò)電話還是面對(duì)面的問(wèn)詢都是費(fèi)時(shí)費(fèi)力的方式。而且這類方式的有效回復(fù)率已經(jīng)下跌至 10% 以下,只能為分析者提供一個(gè)帶偏見的小型樣本。而在線民調(diào)的方法,如 Twitter 分析可以讓研究人員直接研究數(shù)百萬(wàn)群眾的政治觀點(diǎn),實(shí)時(shí)更新,而且數(shù)據(jù)是免費(fèi)的。然而無(wú)論傳統(tǒng)還是 Twitter 民調(diào)都沒有預(yù)測(cè)出去年 11 月份的美國(guó)大選結(jié)果。網(wǎng)絡(luò)看起來(lái)仍然無(wú)法讓我們摸清人民的脈搏。但社會(huì)科學(xué)家相信它終究會(huì)是正確的方式。

(二)社會(huì)系統(tǒng)的預(yù)測(cè)與解釋

社會(huì)科學(xué)研究者一直在尋求人類和社會(huì)現(xiàn)象機(jī)制的合理解釋,卻往往忽視了預(yù)測(cè)準(zhǔn)確性。我們認(rèn)為,社會(huì)科學(xué)越來(lái)越多的計(jì)算性質(zhì)已經(jīng)開始扭轉(zhuǎn)對(duì)于預(yù)測(cè)的偏見了。但是仍有三個(gè)重要問(wèn)題亟待解決:首先,目前用于評(píng)估預(yù)測(cè)的方法必須進(jìn)行標(biāo)準(zhǔn)化;第二,復(fù)雜社會(huì)系統(tǒng)中預(yù)測(cè)準(zhǔn)確性的理論限制必須得到更好地表征,從而設(shè)置對(duì)可以預(yù)測(cè)或解釋的預(yù)期;第三,在評(píng)估解釋時(shí),預(yù)測(cè)準(zhǔn)確性和可解釋性必須被視為補(bǔ)充,而不是替代。解決這三大問(wèn)題將使我們獲得更好,更可重復(fù)和更有意義的社會(huì)科學(xué)。

(三)通過(guò)預(yù)測(cè)競(jìng)賽將概率判斷用于政策辯論

政策辯論經(jīng)常會(huì)受到不準(zhǔn)確預(yù)測(cè)的影響,這讓決策者難以評(píng)估和改進(jìn)政策。一項(xiàng)由美國(guó)情報(bào)機(jī)構(gòu)贊助的錦標(biāo)賽展示了人們可以通過(guò)使用概率模擬來(lái)進(jìn)行預(yù)測(cè)——即使是那些看似「獨(dú)特」的事件。同時(shí),它也證明了比賽是生產(chǎn)知識(shí)的有效工具。根據(jù)關(guān)于問(wèn)責(zé)制影響的文獻(xiàn),作者認(rèn)為競(jìng)賽具有很大潛力,可以作為消除政治辯論和解決政策爭(zhēng)端的工具。

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專欄
相關(guān)推薦

2024-01-31 14:50:50

人工智能智慧城市

2022-08-03 14:38:41

人工智能動(dòng)物語(yǔ)言機(jī)器學(xué)習(xí)

2023-05-23 10:31:53

人工智能物聯(lián)網(wǎng)

2019-09-04 17:52:03

人工智能社會(huì)福布斯

2020-04-09 10:18:20

人工智能新冠疫情數(shù)據(jù)

2023-07-21 16:24:09

人工智能

2023-05-30 10:43:18

2023-10-07 11:38:05

人工智能智能建筑

2023-07-11 10:57:08

人工智能AI

2022-06-20 11:05:58

通用人工智能機(jī)器人

2025-03-10 10:12:25

2022-08-02 14:05:48

人工智能數(shù)據(jù)安全隱私

2017-09-22 12:19:11

人工智能教育教學(xué)

2021-03-22 12:08:30

人工智能

2023-05-26 10:54:57

人工智能環(huán)保房屋

2022-11-09 10:39:27

2023-07-17 09:56:51

2023-08-10 14:06:12

人工智能智能家居養(yǎng)老

2022-07-29 15:47:25

人工智能AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)