偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

人工智能如何幫助我們預(yù)見未來

企業(yè)動態(tài)
人類從遠古時代通過薩滿煙熏內(nèi)臟的方式開始就一直不斷嘗試著預(yù)測未來。正如本專題所探討的,預(yù)測現(xiàn)在是一門高速發(fā)展的科學(xué)。該文章探討了如下問題:怎樣分配有限的資源、一個國家是否會陷入沖突中、誰將有可能贏得選舉或發(fā)表一篇影響巨大的論文以及在這樣一個新興領(lǐng)域中如何建立標準。

序言

人類從遠古時代通過薩滿煙熏內(nèi)臟的方式開始就一直不斷嘗試著預(yù)測未來。正如本專題所探討的,預(yù)測現(xiàn)在是一門高速發(fā)展的科學(xué)。該文章探討了如下問題:怎樣分配有限的資源、一個國家是否會陷入沖突中、誰將有可能贏得選舉或發(fā)表一篇影響巨大的論文以及在這樣一個新興領(lǐng)域中如何建立標準。

社會科學(xué)家和機器學(xué)習(xí)社區(qū)正在學(xué)習(xí)新的分析工具,從而從亂糟糟的數(shù)據(jù)中分離出真正有意義的模式。新工具是令人興奮的,但是如果只是使用框架上的軟件包而沒有完全去理解它,那么就會導(dǎo)致一些災(zāi)難。這一專題的幾位作者描述了平衡機器學(xué)習(xí)方法和人類因素的現(xiàn)實目標的重要性。

在 20 世紀 50 年代,著名作家艾薩克·阿西莫夫想象了心理史學(xué)的圖景,其中計算機可以通過龐大的數(shù)據(jù)集預(yù)測帝國的興亡?,F(xiàn)在科學(xué)還不能完全做到這樣,就像上一次美國大選那樣。新聞報道和相關(guān)的報告也都描述了最新的科學(xué)技術(shù)進展,科學(xué)家們也相信隨著方法的改進和驗證數(shù)據(jù)源的增長,選舉和其他社會實踐將變得越來越可以預(yù)測。

當在多學(xué)科交叉領(lǐng)域中努力解決問題時,如將人類對語義的理解和能處理 TB 級數(shù)據(jù)的算法結(jié)合起來,成功似乎將會到來。研究人員可能仍然遠遠不能做出政策制定者所期望精度的預(yù)測,但是他們現(xiàn)在能夠預(yù)想的情景能幫助塑造一個更好的未來。

一、預(yù)測武裝沖突:是時候調(diào)整我們的期望了嗎?

如果「大數(shù)據(jù)(big data)」可以幫助我們找到合適的合作伙伴、優(yōu)化酒店房間的選擇和解決許多其它日常生活中的問題,那么它也應(yīng)該能夠通過預(yù)測致命沖突的未來爆發(fā)來拯救生命。這是許多將機器學(xué)習(xí)技術(shù)應(yīng)用于來自互聯(lián)網(wǎng)和其它來源的新且大規(guī)模的數(shù)據(jù)集的研究者的希望。鑒于世界上仍還有政治暴力所帶來的苦難和不穩(wěn)定,這一愿景是沖突研究者在政策影響和社會控制上的終極前沿。

話雖如此,但在學(xué)術(shù)的沖突研究上,預(yù)測仍然是非常有爭議的。僅有相對很少的沖突專家嘗試過明確的沖突預(yù)測。此外,還沒有建好的早期警報系統(tǒng)可以作為決策的可靠工具,盡管目前已經(jīng)有一些重大努力了。

近年來,我們已經(jīng)看到了一系列想要填補這一空白的文章出現(xiàn),它們利用了大規(guī)模數(shù)據(jù)收集和計算分析領(lǐng)域內(nèi)的最新進展。這些研究中的任務(wù)是預(yù)測在給定的國家和年份是否有可能發(fā)生國際或國內(nèi)的沖突,并借此創(chuàng)建全球暴力沖突的年度「風險地圖(risk maps)」。最開始的預(yù)測模型基于當時政治學(xué)領(lǐng)域新興的定量方法(quantitative methodology)且依賴于簡單的線性回歸模型。

但是,人們很快就認識到這些模型無法捕獲沖突預(yù)測的多變影響和復(fù)雜的相互作用。這種認識導(dǎo)致了機器學(xué)習(xí)技術(shù)的引入,比如神經(jīng)網(wǎng)絡(luò),這是一種持續(xù)至今的分析趨勢。在這些模型中,生成暴力后果的風險因素的互動是從數(shù)據(jù)中歸納式地推斷出來的,而且這個過程通常需要高度復(fù)雜的模型。今天,沖突預(yù)測工作的主要主要部分仍然是在年度上的國家層面分析,也有一些研究已經(jīng)將其預(yù)測的時間范圍推至了未來數(shù)十年。

最近,新的可用數(shù)據(jù)和改進過的模型讓沖突研究者可以理清政治暴力的時空動態(tài)(temporal and spatial dynamics)。其中一些研究可以給出月度或日度的預(yù)測。這樣的時間劃分需要修正已有預(yù)測模型。比如說,在 [5] 中提出的方法基于以色列-巴勒斯坦沖突的沖突事件數(shù)據(jù)。該分析使用一個區(qū)分高強度和低強度沖突的模型,基于 1996 年到 2009 年的數(shù)據(jù)生成了 2010 年的預(yù)測。另一些方法的目標是利用新類型的預(yù)測器(predictor),比如戰(zhàn)爭相關(guān)新聞報道。因為它們能夠以遠遠更高的時間頻率上撲捉到政治緊張,這些報道被證明是比傳統(tǒng)的結(jié)構(gòu)變量(structural variables,如民主的水平)更強大的戰(zhàn)爭發(fā)生預(yù)測器。

其它研究則在嘗試探索暴力的地方性變化(subnational variation),不僅試圖預(yù)測沖突將在何時發(fā)生,更要預(yù)測會在何地發(fā)生??臻g分解(spatial disaggregation)可以讓沖突預(yù)測按行政單位產(chǎn)生,比如區(qū)或市或任意基于網(wǎng)格的位置。這一領(lǐng)域已有的研究重點是特定的國家和沖突。比如 Weidmann 和 Ward 為波斯尼亞的內(nèi)戰(zhàn)生成了市級水平的預(yù)測,如圖 1 所示。另外也有為非洲的空間網(wǎng)格單元(spatial grid cells)得到的類似的暴力預(yù)測 。同樣,空間預(yù)測模型的復(fù)雜性的跨度可以非常大,從空間回歸模型到更靈活但也更復(fù)雜的機器學(xué)習(xí)模型。

圖 1. 波斯尼亞市級水平的內(nèi)戰(zhàn)暴力預(yù)測。(左圖)1995 年 6 月在 7 個市級單位實際發(fā)生的暴力事件(暗紅)。(右圖)[7] 中描述的時空模型預(yù)測到的暴力(淡紅)。畫有斜紋的圖案表示不正確的預(yù)測。盡管有 4 個市級單位的沖突得到了正確的預(yù)測,但該模型還是錯過了 3 個實際發(fā)生的沖突,并錯誤地預(yù)測了 4 個市級單位會發(fā)生暴力。而且正如大多數(shù)沖突預(yù)測案例一樣,許多區(qū)域仍然是和平的而且也符合預(yù)測(以灰色表示)。

圖 1. 波斯尼亞市級水平的內(nèi)戰(zhàn)暴力預(yù)測。(左圖)1995 年 6 月在 7 個市級單位實際發(fā)生的暴力事件(暗紅)。(右圖)[7] 中描述的時空模型預(yù)測到的暴力(淡紅)。畫有斜紋的圖案表示不正確的預(yù)測。盡管有 4 個市級單位的沖突得到了正確的預(yù)測,但該模型還是錯過了 3 個實際發(fā)生的沖突,并錯誤地預(yù)測了 4 個市級單位會發(fā)生暴力。而且正如大多數(shù)沖突預(yù)測案例一樣,許多區(qū)域仍然是和平的而且也符合預(yù)測(以灰色表示)。

預(yù)測的愿景和陷阱

很顯然,在沖突預(yù)測領(lǐng)域確實出現(xiàn)了一些可觀的進步。使用明確的和客觀的統(tǒng)計標準,更新的方法比傳統(tǒng)的解釋性模型實現(xiàn)更高水平的樣本外準確度(out-of-sample accuracy)。和過去的暴力案例的因果解釋相反,樣本外預(yù)測(out-of-sample forecasting)可以實現(xiàn)不用于擬合模型的事件預(yù)測。依賴于先進的定量技術(shù)的研究者也取得了具體的預(yù)測成功。比如,在 Political Instability Task Force 委托的一份報告中,Ward 及其團隊提前 1 個月預(yù)測了泰國 2014 年 5 月 7 日的軍事政變。

此外,在解決罕見事件預(yù)測的挑戰(zhàn)上也取得了一些進步。標準的、現(xiàn)成可用的機器學(xué)習(xí)模型通常適用于不同的輸出之間相對平衡的問題。而暴力與和平的預(yù)測卻并不是這樣的問題,其中大部分時間所檢查到的單元都是和平的。這個問題可以通過不同的重采樣(resampling)技術(shù)來解決,這能實現(xiàn)該模型的遠遠更高的整體預(yù)測準確度。Muchlinski 等人應(yīng)用這樣技術(shù)在 2001 到 2014 年的樣本上預(yù)測了內(nèi)戰(zhàn)。他們的模型正確地預(yù)測了 20 次內(nèi)戰(zhàn)中的 9 次,而傳統(tǒng)的回歸模型沒有預(yù)測正確。

該文獻還表明以樣本外預(yù)測(out-of-sample prediction)為重心有助于防止包含進可能會惡化預(yù)測表現(xiàn)的解釋性的長列表。更一般而言,這樣的分析也是一個有用的提醒:過去事件和未來事件預(yù)測的因果解釋是不同但相關(guān)的實證表現(xiàn)的標準 。

盡管有這樣的進展,但要說能拯救生命的沖突預(yù)防(conflict prevention)已經(jīng)馬上就能實現(xiàn)還是過于樂觀。此外,這一領(lǐng)域還遠遠沒有達到民意調(diào)查機構(gòu)和經(jīng)濟預(yù)測機構(gòu)所能接受的政策影響。為什么會這樣呢?

也許最嚴重的問題在于在完全認識圍繞和平與沖突的根本復(fù)雜性上的普遍失敗。與相對結(jié)構(gòu)化的機構(gòu)決策設(shè)置(institutional decision-making settings,如在微觀層面上的投票和消費者行為)相反,沖突過程通常包含一個難以處理的施動因素(actor)集合,這些施動因素以一種讓人驚訝的而且從定義上打破規(guī)則的方式交互 。這些情形可通過基本和固有的復(fù)雜性進行特征化,其允許的是實現(xiàn)「模式預(yù)測(pattern prediction)」而不是準確的特定事件的經(jīng)驗預(yù)測。在缺乏充分了解所有理論上的組件的交互方式以及缺乏足夠用于測量相關(guān)變量的數(shù)據(jù)的情況下,我們所能希望的只有在能增加沖突的概率的結(jié)構(gòu)特征的基礎(chǔ)上的風險評估(risk assessment)。因此,至少在宏觀層面上,要根據(jù)之前在稍不復(fù)雜的領(lǐng)域(如臺球、行星運動或交通系統(tǒng)、)或更簡單的政治環(huán)境(如選舉競爭)上的成功來確定未來預(yù)測的表現(xiàn)是無效的;在這些更簡單的問題中,理論原理得到了廣泛的了解,而且相關(guān)事件發(fā)生的頻率也很高。

即便神經(jīng)網(wǎng)絡(luò)這樣的機器學(xué)習(xí)技術(shù)能在底層數(shù)據(jù)捕捉非線性,但是地緣政治的變化改變了如國家及其邊界這樣的分析單位,這種改變帶來了一個更基本的挑戰(zhàn),尤其是對于長期宏觀預(yù)測來說。大多數(shù)宏觀模型傾向于跟蹤一組給定的現(xiàn)有狀態(tài)到未來的屬性,而忽略了領(lǐng)土變化的可能性,比如分裂與統(tǒng)一。然而,正如前蘇聯(lián)和南斯拉夫冷戰(zhàn)結(jié)束帶來的變化所展現(xiàn)的那樣,這些國家的國家層面上的數(shù)據(jù)幾乎沒有為冷戰(zhàn)結(jié)束后的預(yù)測提供指導(dǎo)。地域的變化之外,這些隱含的恒常性假設(shè)更普遍地適用于單位和因果機制效應(yīng)之間的互動。這個問題阻礙了「交叉驗證」的使用,這種方法會將數(shù)據(jù)集分成若干部分,其中一些是用來「訓(xùn)練」預(yù)測算法,還有一些是作為「抵抗(holdout)」部分,后面會用來測試算法。在一些將歷史切成碎片這種做法的情況下,關(guān)于長期趨勢的有價值信息會丟失,因為這種方法打亂了歷史時期,把它們看成了是 等效的(equivalent)。

數(shù)據(jù)質(zhì)量進一步阻礙了政治暴力預(yù)測的進展。與臺球或行星運動軌跡不同,測量沖突的發(fā)生、地點和時間要難得多,而且這些預(yù)測與相當大的不確定性有關(guān)。對于許多暴力的決定因素,如經(jīng)濟狀況,類似的問題也同樣存在。即使在過去事件的統(tǒng)計解釋測量上誤差不是個問題,但它仍然對未來暴力行為的預(yù)測構(gòu)成了挑戰(zhàn),同時還常常會降低暴力發(fā)生地點和時間預(yù)測的置信度。如果暴力測量結(jié)果與一個或更多的預(yù)測指標變量呈現(xiàn)系統(tǒng)性相關(guān),那么會產(chǎn)生類型更多的嚴重錯誤。因為政治暴力往往是從新聞文章這樣的次要來源(如新聞文章)編碼而來的,所以高水平地暴力觀察可能是源于高水平的實際暴力或者概率更高的報道(或者兩者都是)。這使得預(yù)測很困難。擴大數(shù)據(jù)集——如在使用自動事件編碼的幾個項目中——可能加劇這一問題,因為它同樣依賴次級來源。

即便在預(yù)測研究上的最近進展很有前景,我們還是要警告從理論和政策上高估其重要性的傾向。如上面所討論,樣本外預(yù)測有助于理論建設(shè),但是,這并不意味著有效的解釋必須始終是預(yù)測性的。根據(jù)達爾文的理論,一些高度依賴路徑的過程只允許特定情況下的事后解釋。鑒于沖突過程的復(fù)雜性特征,特別是在宏觀層面,這樣的解釋仍然可以提供關(guān)于具體機制和政策有效性的關(guān)鍵信息。此外,將預(yù)測表現(xiàn)作為唯一有效的經(jīng)驗評估標準是不明智的,特別是在預(yù)測模型非常復(fù)雜和不透明,以至于尚不清楚預(yù)測成功的驅(qū)動因素是什么的情況下。例如,模型集合上的貝葉斯平均是一種優(yōu)雅歸納技巧,它從競爭模型中匯聚了大量數(shù)據(jù),但除非理順理論上的問題,否則整體結(jié)果可能只不過是理論上的黑箱而已。

做政策相關(guān)的預(yù)測需要謹慎的原因研究還有一些。學(xué)者們給出的預(yù)測通常都假設(shè)政策制定者最要想要的是預(yù)測性的風險評估,因為這些東西能讓他們通過配置預(yù)防性資源和干預(yù)減少潛在沖突。然而,這些希望假定了政策干預(yù)的效用已被廣為人知。事實上,無理論的預(yù)測在不了解沖突的驅(qū)動因素的情況下很少能指導(dǎo)干預(yù)。因此,謹慎執(zhí)行政策分析評估沖突減少措施帶來的因果效用是有效政治宏觀預(yù)測的先決條件。考慮到獲得關(guān)鍵社會指標的可靠信息是有困難的,尤其在發(fā)展中國家,在許多情況下,一些基本描述和解釋建??赡鼙阮A(yù)測更迫切需要。

推薦

有許多方法可以改善現(xiàn)有的沖突預(yù)測工作,例如,涉及到方法論和結(jié)果的溝通。在一些情況下,這需要更多用戶友好的方式來呈現(xiàn)結(jié)果,比如報告現(xiàn)有和預(yù)測的趨勢,而不僅僅是基于花哨估計技術(shù)的接收者操作特征(receiver operating characteristic,ROC)曲線。透明性還要求關(guān)于采樣周期的關(guān)鍵假設(shè)和不確定性測量在多個場景中基于備選假設(shè)的情況下能被明確陳述和經(jīng)過魯棒性測試。否則,研究者的錯誤估計可能會傳達一種錯誤的確定感。

為了評估新方法的附加值,分析師們需要更好地比較他們從復(fù)雜的預(yù)測機制中得出的預(yù)測與簡單的基線模型。它最純凈的形式,比如一個基線模型,能簡單地預(yù)測出過去沒有給現(xiàn)在帶來變化。例如,Lim 等人用一個基于 agent 的復(fù)雜模型預(yù)測了前斯拉夫種族暴力的位置。雖然該模型的預(yù)測精度乍一看令人印象深刻,進一步的檢查發(fā)現(xiàn),這種表現(xiàn)與一個在地圖上隨機標出暴力事件(塞爾維亞和黑山共和國除外)的模型差不多。

最終,在政治暴力這個問題上,希望大數(shù)據(jù)通過某種無理論的「蠻力」產(chǎn)生某種有效的預(yù)測是錯誤的想法。自動的數(shù)據(jù)提取算法,比如基于社交媒體的網(wǎng)頁抓取和信號探測,可能會加劇政治緊張局勢,但這并不意味著這些算法能以較高的時空精度預(yù)測低概率沖突事件。只有研究人員考慮到數(shù)據(jù)質(zhì)量和代表性的局限性,大型自動編碼的數(shù)據(jù)集才能發(fā)揮用處。這樣一來,團隊工作的人類「超級預(yù)測員」仍然能在一般政治事件預(yù)測上擊敗的不僅是更專業(yè)的專家,還包括預(yù)測市場和其他自動化的方法就不足為奇。

總體上看,我們堅決相信沖突預(yù)測非常有用,也值得投入研究。但是,未來的預(yù)測研究需要識別由人類系統(tǒng)的大量歷史復(fù)雜性與偶然性導(dǎo)致的內(nèi)在局限。如冷戰(zhàn)的結(jié)果和更多的最近歷史事件表面,像「英國退歐」和「特朗普大選勝利」這樣的歷史性「事件」經(jīng)常會諷刺脫離語境的樣本外的推算(out-of-sample extrapolation)。討論經(jīng)濟發(fā)展長期預(yù)測的難度時,Milanovic 提醒我們「可以也確實會改變的變量數(shù)量,歷史中(『自由意志』)人物的角色」,以及戰(zhàn)爭和自然災(zāi)害的影響是如此之大,以至于即使是一代人中最優(yōu)秀的頭腦所作出的大趨勢預(yù)測也很少正確。

然而,同時,時空范圍更有限的預(yù)測——例如預(yù)測的一個給定的處于內(nèi)戰(zhàn)的城市的短期暴力軌跡——是完全可能的,因為它們不太可能受到這些發(fā)展的影響。因此,該領(lǐng)域的挑戰(zhàn)是,要在社會和政治世界固有的復(fù)雜性與我們準確預(yù)測政治暴力的能力的相關(guān)局限之間找到一個平衡點。最近收集沖突事件的非總體和空間直觀(spatially explicit)的數(shù)據(jù)加快了,結(jié)果表明,在有限的時空半徑內(nèi),政策相關(guān)的預(yù)測是可行的,同時潛在用處也非常大。然而,超出這些限制,大量的理論和經(jīng)驗的不確定性往往壓倒了預(yù)測的嘗試。在這樣的情況下,在生成可能的情景這個任務(wù)上,預(yù)測建模作為一種啟發(fā)式工具,而不是作為具體政策建議的生產(chǎn)工具,或許會更有用。

二、科學(xué)學(xué)領(lǐng)域中基于數(shù)據(jù)的預(yù)測研究

想要預(yù)測發(fā)現(xiàn)的愿望——提前知道將由誰在何時何處發(fā)現(xiàn)什么,幾乎滲透了現(xiàn)代科學(xué)的所有方面:從個人科學(xué)家到出版商,從資助機構(gòu)到招聘委員會。本文調(diào)查了「科學(xué)的科學(xué)(science of science,科學(xué)學(xué))」的新興和跨學(xué)科領(lǐng)域,以及使我們得知科學(xué)發(fā)現(xiàn)的可預(yù)測性的因素。而后我們將討論改進源自科學(xué)的科學(xué)的未來機遇及科學(xué)社區(qū)中積極和消極的潛在影響。

目前,對預(yù)測發(fā)現(xiàn)——對何人何時何地發(fā)現(xiàn)何物提前有些想法——的渴望幾乎遍及現(xiàn)代科學(xué)的所有方面。個人科學(xué)家通常預(yù)測哪些研究問題或課題會是有趣的、有影響力的,并且可獲得資金支持。出版商和資助機構(gòu)評估手稿或項目意見書時,部分是通過預(yù)測其未來的影響力進行的。員工招聘委員會也會預(yù)測哪些候選人員會在其職業(yè)生涯中作出重要的科學(xué)貢獻。對于通過稅費資助大部分科學(xué)研究的社會大眾來說,預(yù)測也是重要的。我們能使科學(xué)發(fā)現(xiàn)過程更有可預(yù)測性,就能將資源更高效地用于推動有價值的技術(shù)、生物醫(yī)學(xué)和科學(xué)方面的進步。

盡管存在這種普遍的需求,我們對如何發(fā)現(xiàn)的理解仍然是局限的,并且個人、出版商、資助機構(gòu)或招聘委員會做出的預(yù)測中相對來說極少是通過科學(xué)方式做出的。那么,我們?nèi)绾文苤獣阅男┦强梢灶A(yù)測的,哪些是無法預(yù)測的?盡管將發(fā)現(xiàn)與發(fā)現(xiàn)者相分離會存在困難,但該論文的首要關(guān)注點是科學(xué)的科學(xué):為科學(xué)性地理解導(dǎo)致科學(xué)發(fā)現(xiàn)的社會過程(social processes)而進行一種跨學(xué)科工作。(是為了對科學(xué)哲學(xué)的現(xiàn)時思考及科學(xué)家如何在個別科學(xué)挑戰(zhàn)方面取得進展,請看(1)

這種預(yù)測發(fā)現(xiàn)的興趣可以向前追溯近 150 年,一直追溯到哲學(xué)家 Boleslaw Prus (1847–1912) 和經(jīng)驗主義學(xué)派的社會學(xué)家 Florian Znaniecki (1882–1958) 的作品。特別是 Znaniecki,在其倡議下,設(shè)立了對科學(xué)社會進程的數(shù)據(jù)導(dǎo)向研究。在 20 世紀的大部分時間里,該目標進展緩慢,部分是由于好數(shù)據(jù)難獲取,且大部分人滿足于專家評判。

今天,科學(xué)圈是一個巨大而又多變的生態(tài)系統(tǒng),包含著數(shù)以百計的互相關(guān)聯(lián)的研究領(lǐng)域,數(shù)以萬計的研究人員和每年層出不窮眼花繚亂的新結(jié)果。這樣驚人的體量和復(fù)雜度進一步擴大了對科學(xué)的科學(xué)研究的呼聲并激發(fā)了對這種類型測量量化方法的研究,比如對過去成果的引用、新成果的產(chǎn)生、職業(yè)生涯軌跡、資金贊助、學(xué)術(shù)獎勵等等。數(shù)字技術(shù)使得這些信息的生成量巨大,而研究人員則正在開發(fā)新的強大的計算工具來分析這些信息。舉個例子,為了自動量化某些專業(yè)科學(xué)問題研究的進展,自動提取和分類論文中的相關(guān)內(nèi)容。

目前普遍認為,通過挖掘這些信息所得到的預(yù)測遠比專家的意見更為客觀精確。書目數(shù)據(jù)庫和在線平臺——比如,Google Scholar、PubMed、Web of Science、JSTOR、ORCID、EasyChair、和「altmetrics,」——正在使研究人員對科學(xué)進展的深入洞見進入一個新的時代。

這些努力也帶來了一個引人爭議的問題:我們最終能夠預(yù)測重要的發(fā)現(xiàn)和它們的發(fā)現(xiàn)者嗎?就像 Yoshinori Ohsumi 的諾貝爾獎——對動物細胞的自我吞噬系統(tǒng)的相關(guān)工作。我們還不知道答案,但這項工作肯定會使我們在科學(xué)研究這一社會活動的理解上更進一步。舉個例子,一些科學(xué)發(fā)現(xiàn)是很容易被預(yù)測的(圖.1)。隨著理論和證據(jù)的累積,很明顯一個發(fā)現(xiàn)將迫在眉睫,就像一幅拼圖中間就缺了那一小塊一樣。人類基因序列的確定和引力波的觀測就是這種發(fā)現(xiàn)的很好例子。另一方面,一些發(fā)現(xiàn)似乎不可能被預(yù)測,因為它們可能代表了促使我們重新思考整個問題的那一小塊拼圖或者是發(fā)現(xiàn)了正在發(fā)掘的那一部分的新用法。盡管隱喻著這樣的關(guān)鍵創(chuàng)新的小塊有時是當下顯而易見的,就像基因編輯技術(shù),而有時這些隱喻又需要時間以使得其余的相關(guān)部分進入我們的視野,就像青霉素(第一種抗生素)的例子,我們用了 15 年才實現(xiàn)它。

圖 1:多意外才能算是一項發(fā)現(xiàn)?

圖 1:多意外才能算是一項發(fā)現(xiàn)?

科學(xué)發(fā)現(xiàn)在相對于它們各自的已知知識的不可預(yù)見性這一問題上而各有不同。為了說明這一觀點,我們把 17 個主要科學(xué)發(fā)現(xiàn)的例子從完全無法預(yù)計(如抗生素、基因編輯技術(shù)、以及宇宙微波背景輻射)到可以預(yù)知(如引力波、DNA 的結(jié)構(gòu)、人類基因的編碼)進行排列。

通過使用已發(fā)表成果以及科學(xué)生涯中的現(xiàn)代數(shù)據(jù),科學(xué)學(xué)的研究人員們已經(jīng)開始定義一些在各個領(lǐng)域內(nèi)普遍認同的量化特征,而這些洞見正重新定義科學(xué)學(xué)可預(yù)見性的極限。以下四個領(lǐng)域具體體現(xiàn)了這些成果:對過去發(fā)現(xiàn)的引用量、誰得到了相關(guān)的研究職位、科學(xué)的生產(chǎn)力以及在職業(yè)生涯中主要發(fā)現(xiàn)的時機。但是,基于這些方面的工作同樣也暗示了它受限于數(shù)據(jù)驅(qū)動的對科學(xué)發(fā)現(xiàn)的預(yù)測。

現(xiàn)代的文獻數(shù)據(jù)庫允許研究者輕松匯總和研究引用量,這提供了一種方便但也有爭議的科學(xué)影響力測量方式。50 多年之前,de Solla Price (1922–1983) 在許多知名的成果中識別出了驅(qū)動引用量的基本機制,其中當前可見度和幸運事件能驅(qū)動一個正向反饋循環(huán),這能放大未來的可見性 (4)。這種「擇優(yōu)依附(preferential attachment)」機制解釋了論文之間的引用如此不均衡的原因,為什么有的論文能夠得到比典型論文多數(shù)百倍乃至數(shù)千倍的關(guān)注。這個模型也能對一個發(fā)展中的領(lǐng)域內(nèi)的引用積累情況能做出非常好的預(yù)測。一個帶有論文的新舊程度及其固有吸引力等控制量的修改過的版本能為單篇論文的長期引用量估計提供預(yù)測,其能表明引用達到峰值的時間以及需要多少時間才能將一項發(fā)現(xiàn)變成一個常識 (6)。

但是,一些發(fā)現(xiàn)并不遵循這些規(guī)則,這些例外表明,除了可見度、運氣和正向反饋,還存在更多與科學(xué)影響力有關(guān)的因素。比如說,一些論文遠遠超出了由簡單的「擇優(yōu)依附」所做出的預(yù)測 (5,6)。另外還有科學(xué)中的「睡美人」:在很長一段時間內(nèi)休眠不被人注意的發(fā)現(xiàn),之后突然得到了很大的關(guān)注 (7-9)。一項在過去 100 年來的近 2500 萬份自然科學(xué)和社會科學(xué)出版物上的系統(tǒng)性研究發(fā)現(xiàn)「睡美人」在所有研究領(lǐng)域都有出現(xiàn) (9)。比如,愛因斯坦、波多爾斯基和羅森在 1935 年的關(guān)于量子力學(xué)的論文;Wenzel 在 1936 年關(guān)于防水材料的論文;Rosenblatt 在 1958 年關(guān)于人工神經(jīng)網(wǎng)絡(luò)的論文。沉睡的論文的覺醒可能從根本上來說是無法被預(yù)測的,部分原因是在一項發(fā)現(xiàn)的影響顯現(xiàn)之前,科學(xué)本身也必須取得進步。

做出什么樣的發(fā)現(xiàn)部分取決于誰在做這個發(fā)現(xiàn)以及他們接受的是什么樣的科學(xué)家訓(xùn)練(10)。科學(xué)家生產(chǎn)力隊伍的這些特點是受一小部分頗有聲望的研究機構(gòu)的博士項目驅(qū)動的,這是由用來訓(xùn)練大多數(shù)職業(yè)研究者的數(shù)據(jù)揭示出的。(11)作為這一優(yōu)勢的結(jié)果,研究議程以及少量項目的博士生人口統(tǒng)計學(xué)趨于驅(qū)動著科研偏好和整個生態(tài)系統(tǒng)的生產(chǎn)力構(gòu)成。除了這一穩(wěn)健的模式——85% 的新教員是來自博士項目到不同層次聲望的研究機構(gòu)——之外,到目前為止,教員安置顯然是難以預(yù)測的。利用了職業(yè)生涯早期生產(chǎn)力、博士后訓(xùn)練情況、地理位置、性別方面等更多方面數(shù)據(jù)的模型幾乎很難改善有關(guān)最終職位安置的結(jié)果,跟了解這個人的學(xué)術(shù)血統(tǒng)后的預(yù)測效果差不多(12)。這一背景下的準確預(yù)測或許需要不同的、更少接觸到的數(shù)據(jù),或者安置結(jié)果根本就是難以預(yù)測的,因為這取決于潛在不可測量的因素。

通過測量科研生產(chǎn)力以及發(fā)表作品被引用情況,研究人員也已經(jīng)調(diào)查過了科學(xué)家個人在職業(yè)生涯中的表現(xiàn)和成就的可預(yù)測性。一般常識認為生產(chǎn)力——粗糙得說就是發(fā)論文的數(shù)量——會在職業(yè)生涯早期趨于高峰,接下來是一條長長的、逐漸下降的曲線(13),或許日益增加的教學(xué)和服務(wù)任務(wù)影響了科研作品的數(shù)量,降低了創(chuàng)造力等。不過,近期的一項對四十多年的生產(chǎn)力數(shù)據(jù)分析(針對 2300 名計算機科學(xué)教育人員)表明,個體生產(chǎn)力存在巨大差異性(14)。通常,最富生產(chǎn)力的時間集中在成為首席研究人員的最初 8 年中(圖 2),生產(chǎn)力高峰通常出現(xiàn)在首次升職之前。同時,近一半研究人員生產(chǎn)力最高峰的一年會出現(xiàn)得晚一點,有些研究人員的生產(chǎn)力最高峰出現(xiàn)在職業(yè)生涯晚期。

對于絕大多數(shù)研究人員來說,生產(chǎn)力高峰很早就出現(xiàn)了。

(左)熱圖表明 2300 名計算機科學(xué)教員職業(yè)生涯中,生產(chǎn)力最高峰年份出現(xiàn)的時間(以發(fā)表作品數(shù)量為準),從第一份教職開始,從左到右依次列開。(右)直方圖對熱圖的橫向進行了總結(jié),表明,對于絕大多數(shù) 研究人員來說,他們生產(chǎn)力達到最高峰的一年通常出現(xiàn)在創(chuàng)立自己實驗室的 8 年內(nèi)。

過去的作品也意味著,職業(yè)生涯的早中期更有可能做出科學(xué)家個人最佳科學(xué)發(fā)現(xiàn),比如,被引用最多的作品(15,16)。這一模式意味著主要發(fā)現(xiàn)的出現(xiàn)時間多少是可以預(yù)測的。不過,針對 10,000 名科學(xué)家發(fā)表作品歷史的分析表明,實際上,一項發(fā)現(xiàn)的影響力和它在職業(yè)生涯中出現(xiàn)的時機,并無相關(guān)性。也就是說,當這位科學(xué)家論文按照從第一篇到最后一篇的順序進行安排時,他們引用率最高的發(fā)現(xiàn)就是第一篇論文的可能性大致等于可能是第二篇、第十篇甚至最后一篇的可能性(圖 3)。年輕科學(xué)家傾向于成為絕大多數(shù)最主要發(fā)現(xiàn)的發(fā)起人——這一發(fā)現(xiàn)因此也是他們通常更富生產(chǎn)力這一事實自然而然的結(jié)果,并不必然是職業(yè)早期能力提升的一個特征。僅憑簡單的機會本身,個人的最佳發(fā)揮更有可能出現(xiàn)在這位科學(xué)家職業(yè)生涯更富創(chuàng)造力的階段。

圖 3. 在一位科學(xué)家作品序列上任意一點的主要發(fā)現(xiàn)。

這幅柵格圖展示了隨機挑選的 150 位 物理學(xué)家(17)所有作品的順序,從第一篇到最后一篇,每一行圓圈代表了一為科學(xué)家發(fā)表作品的順序。一行當中,藍色圓點標記的是最高影響力的作品。藍色圓點在表格里的不一致分布以及對應(yīng) 10,000 調(diào)查者(頂部)柱狀圖的平坦表明,主要科學(xué)發(fā)現(xiàn)什么時候出現(xiàn),并無規(guī)律可循。

雖然每位科學(xué)家影響最顯著的論文的相對時間可能無法預(yù)測,但預(yù)測論文會被引用的次數(shù)和它是兩碼事(17,18)。具體來講,援引已發(fā)表論文會以系統(tǒng)、持續(xù)性的方式因科學(xué)家而異,這與科學(xué)家工作主體的可見性相關(guān),但與研究領(lǐng)域無關(guān)。這種模式使我們能夠預(yù)測一個科學(xué)家最優(yōu)論文的被引用量。關(guān)于科學(xué)家個人巔峰時期和幅度的兩個結(jié)果表明,個別科學(xué)家成就的某些方面極難預(yù)測,而在其他方面更容易些.

生產(chǎn)力和影響力當中,強健以及場外獨立(field-independent)模式,以及研究建議評估中有關(guān)偏差的證據(jù),對目前為大多數(shù)科學(xué)研究提供資金的方式提出了質(zhì)疑。比如,觀察及實驗研究表明,女性、非白人研究者(19,20)或側(cè)重于跨學(xué)科研究(21)的項目申請獲得資助的可能性更低。同樣,最具創(chuàng)造力與影響力的時間集中于科研生涯的前十年,這似乎證明將資金從較年長的科學(xué)家向年輕科學(xué)家轉(zhuǎn)移的舉措具有合理性。NIH 長期支持早期研究者便是一個顯著實例,盡管其成功很有限——因為 NIH 對 40 歲以下科學(xué)家的獎勵數(shù)量仍低于 30 年前的峰值(22)。另一方面,有人可能認為盡管外部資金不平衡,年輕的研究人員往往更有成效。科學(xué)的科學(xué)根據(jù)這些情況確定了一個重要的模式,但根本原因的確定則需進一步調(diào)查與主動性實驗。

引用、出版量、職業(yè)發(fā)展、學(xué)術(shù)獎項以及其他通用度量是最佳原始數(shù)量,而如今我們可能正在接近它們能夠告知的關(guān)于科學(xué)生態(tài)系統(tǒng)及其發(fā)現(xiàn)生產(chǎn)的信息極限。這些度量是科學(xué)前沿進展的滯后指標,它們能夠預(yù)測新領(lǐng)域的出現(xiàn)或重大發(fā)現(xiàn)的可能性也許會很低。科學(xué)的科學(xué)中存在一個根本問題:能否使用更及時或具體情境的科學(xué)家的工作數(shù)據(jù)來進行更準確的預(yù)測,例如論文的內(nèi)容、預(yù)印本數(shù)據(jù)、科學(xué)研討會、科研團隊溝通、被拒稿件、資助申請及其同行評議,甚至是社交媒體。我們應(yīng)當使用控制實驗來揭示大型數(shù)字數(shù)據(jù)庫中所觀察的模式中的因果機制,并探討可測量的量與我們的解釋之間的關(guān)系,如引用計數(shù)如何反映感知的科學(xué)影響(23)。

「... 我們有責任確保使用預(yù)測工具不會阻礙未來的發(fā)現(xiàn),將弱勢群體邊緣化...」

其中引用和出版量是以往成功的度量,它們展現(xiàn)出創(chuàng)造愈發(fā)豐富的動態(tài)的反饋循環(huán)。當與具有現(xiàn)代科學(xué)出版、投資和聘用特性的超競爭力相結(jié)合時,由于在未來成功的機會的分配中有一部分基于最近成功的標記,這種反饋循環(huán)則可能在成功中產(chǎn)生顯著的不平等。然而貫穿科學(xué)發(fā)現(xiàn)許多方面的深度不可預(yù)測性表明,過度依賴這些度量能夠產(chǎn)生自我實現(xiàn)的預(yù)測(24),這最終縮小了科學(xué)創(chuàng)新的范圍,并將注意力從潛在、基本但不可預(yù)測的進展中移走。未來研究的一個重要方向必定是制定成功的度量和不易受反饋循環(huán)影響的評價系統(tǒng)。

而存在的一個隱患是:資助者、出版商和大學(xué)可能利用大型書目數(shù)據(jù)庫來創(chuàng)建新的系統(tǒng),自動評估項目申請、手稿或年輕學(xué)者的未來「影響」。這種數(shù)據(jù)挖掘工作應(yīng)當非常謹慎。它們的使用由于側(cè)重與以往成功的原始指標相關(guān)的細微相關(guān)性,便可能輕易對創(chuàng)新造成阻礙,并加劇現(xiàn)存科學(xué)系統(tǒng)的不平等。畢竟新的發(fā)現(xiàn)由于從未被看到過而非常有價值,而數(shù)據(jù)挖掘技術(shù)只能了解過去做了什么。自動化系統(tǒng)的必然出現(xiàn)使得科學(xué)界必須指導(dǎo)他們的發(fā)展與使用,以便納入機器學(xué)習(xí)中的公平、問責和透明的原則(25,26)。我們有責任確保預(yù)測工具的使用不會阻礙未來的發(fā)現(xiàn)、邊緣化弱勢群體、排除新想法或阻礙跨學(xué)科研究與新領(lǐng)域的發(fā)展。

就像生物生態(tài)系統(tǒng)適應(yīng)選擇壓力一樣,科學(xué)生態(tài)系統(tǒng)最終將適應(yīng)不斷變化的科學(xué)激勵和需求(27)。隨著壓力改變,科學(xué)家們將適應(yīng)或者退休,將生存與增殖的實踐親身傳授給他們的學(xué)生。然而令人不安的是,諾貝爾獎獲得者幾乎每年都聲稱他們最大的發(fā)現(xiàn)在現(xiàn)存的研究環(huán)境中本不可能。2016 年,Ohsumi 聲稱「如今科學(xué)家愈發(fā)需要為他們的研究提供即時而明確的應(yīng)用」(28)。這類對于未料想到的可預(yù)測型發(fā)現(xiàn)的普遍重視會孕育出另類的、更具冒險精神的科學(xué)家。而結(jié)果可能會是凈化選擇的一種危險形式,這種形式下的年輕科學(xué)家會優(yōu)化他們的研究并向一種趨勢靠攏,這種趨勢與我們每年評出的具有突出科學(xué)貢獻的科學(xué)家類型不相適應(yīng).

根據(jù)生態(tài)學(xué)及進化理論改進觀點在更好地整體性理解并預(yù)測科學(xué)生態(tài)系統(tǒng)方面極具潛力。這方面的進展將有助于我們避免由于多樣性的喪失而造成的創(chuàng)新上的損失。作為共同體,我們必須制定培養(yǎng)一個多元化的科學(xué)生態(tài)系統(tǒng)的制度,包括 Freeman Dyson 談到的俯瞰遠方的鳥和探索細節(jié)的青蛙(29)、逆向、流浪者、工具建設(shè)者等。然而,在科學(xué)家之間實現(xiàn)這種多樣化選擇的實際細節(jié)仍不清晰。真正的生態(tài)研究依賴于觀察研究與主動性實驗的結(jié)合。然而,科學(xué)的科學(xué)中的大多數(shù)工作純粹是觀察性的,并且增加主動性實驗(30)將需要源于定義適應(yīng)性景觀的資助機構(gòu)、出版商和管理員的關(guān)注、魄力和勇氣。如果說科學(xué)的科學(xué)能夠教我們什么,那便是科學(xué)本身可以用科學(xué)的方法探測,而我們定會愚蠢地忽略實驗。

在新的數(shù)據(jù)源、新實驗和新想法的驅(qū)動下,我們期盼科學(xué)的科學(xué)可以產(chǎn)生更多有關(guān)社會過程并能導(dǎo)致科學(xué)發(fā)現(xiàn)的振奮人心的洞察。研究已經(jīng)表明,這些發(fā)現(xiàn)的某些方面是可預(yù)測的,并且它們在很大程度上與以往發(fā)現(xiàn)的引用隨時間積累的途徑相關(guān)。然而在其他方面可能根本上就不可預(yù)測。這些限制在如今的大數(shù)據(jù)與人工智能時代是微不足道的見解,并表明用于產(chǎn)生科學(xué)發(fā)現(xiàn)的更可靠引擎可能是培養(yǎng)和保持科學(xué)家健全的生態(tài)系統(tǒng),而非專注于預(yù)測個體發(fā)現(xiàn)。

三、超越預(yù)測:使用大數(shù)據(jù)解決政策問題

最近,科學(xué)、產(chǎn)業(yè)以及政府領(lǐng)域分析的爆炸增長,以尋求「大數(shù)據(jù)(big data)」的幫助來解決各種問題。日益增長的大數(shù)據(jù)應(yīng)用使用了有監(jiān)督的機器學(xué)習(xí)(SML/supervised machine learning)工具。在描述這一工具有望用來解決臨床醫(yī)學(xué)問題時,Obermeyer 等人評論到:「機器學(xué)習(xí)……就像醫(yī)生通過實習(xí)獲得進步那樣來解決問題:從數(shù)據(jù)中學(xué)習(xí)規(guī)則。開始是病人觀測值,然后算法篩選大量變量、尋找可靠的預(yù)測結(jié)果的組合……機器學(xué)習(xí)的優(yōu)勢就是可以處理大量預(yù)測因素(predictor)——有時還驚人地預(yù)測因素比觀測值還多,并以非線性、高度交互的方式將它們組合起來?!?/p>

SML 技術(shù)最初出現(xiàn)在計算機科學(xué)和工程學(xué)領(lǐng)域,已被廣泛用于工程應(yīng)用,比如搜索引擎和圖像分類。最近,用這一方法解決科學(xué)和政策問題的應(yīng)用數(shù)量也越來越多。在公共領(lǐng)域,這一方法模型已經(jīng)被用于刑事司法制度(2);使用移動數(shù)據(jù)、衛(wèi)星圖像或谷歌街景(3、4、5)預(yù)測經(jīng)濟狀況;分配城市火警、健康監(jiān)察點等,以及各種城市應(yīng)用。該技術(shù)已經(jīng)被用于分類文本中的政治偏見(8)以及評論中的情感分析。在醫(yī)學(xué)領(lǐng)域,基于有監(jiān)督的機器學(xué)習(xí)預(yù)測算法已經(jīng)被醫(yī)院用于按照病人的并發(fā)癥的風險預(yù)測病情,優(yōu)先安排病人的醫(yī)療干預(yù) (10),該技術(shù)還被廣泛用于多種其它醫(yī)療應(yīng)用,包括個性化醫(yī)療(1)。

有監(jiān)督的機器學(xué)習(xí)的迅速普及部分歸功于數(shù)據(jù)、計算技術(shù)以及資源、數(shù)據(jù)分析技術(shù)、開源軟件方面的進步。另一個因素這些技術(shù)被設(shè)計用來解決的問題很簡單。現(xiàn)成的預(yù)測技術(shù)要發(fā)揮作用幾乎不用什么假設(shè)(assumption):環(huán)境必須穩(wěn)定、其行為正被研究的單元個體不會互動或相互干擾。在許多應(yīng)用中,SML 可以被對問題領(lǐng)域所知甚少的科學(xué)家成功地加以應(yīng)用。比如,Kaggle 公司主辦的預(yù)測競賽(www.kaggle.com/competitions)中,贊助商提供數(shù)據(jù)組,來自世界各地的選手提交的作品常常能成功預(yù)測,無論其關(guān)于問題的背景多么有限。

然而,對純預(yù)測方法的局限性的關(guān)注要少得多。當這一方法被用于現(xiàn)成的預(yù)測,而沒有理解基本假設(shè)或確保滿足諸如穩(wěn)定性等條件時,結(jié)論的有效性和有用性就會受到損害。一個更加深入的擔憂時,只使用預(yù)測技術(shù)是否就能解決給定問題,或者是否需要對干擾的因果效應(yīng)(causal effect)進行評估的統(tǒng)計方法。

Kleinberg 等人(11)強調(diào)了這一情況,現(xiàn)有的 SML 技術(shù)可以部分(但無法全部)解決健康政策領(lǐng)域的資源分配問題。他們考慮的問題是決定是否通過醫(yī)療保險給否則不合格的病人做髖關(guān)節(jié)置換手術(shù)。他們使用 SML 預(yù)測概率(一個要進行關(guān)節(jié)置換手術(shù)的患者是否會因其他因素在一年內(nèi)死亡),以及識別那些處在特殊高風險,不該進行關(guān)節(jié)置換手術(shù)的患者。他們認為:「好處會隨著時間的推移自然顯現(xiàn),因此,如果某人能獲得夠久來享受手術(shù)的好處,那么手術(shù)才有意義;給不久就會死亡的病人置換關(guān)節(jié)沒什么價值——浪費金錢,給生命的最后徒增不必要的痛苦?!?/p>

這類問題中,聚焦預(yù)測的基本原理是很明顯的;我們知道,一個干預(yù)的平均影響,在某種世界狀態(tài)下,也是負面的(如果病人很快死亡),因此,預(yù)測世界狀態(tài)足以用來預(yù)測是否放棄手術(shù)這一決定。不過,作者強調(diào)了這一事實:純粹的預(yù)測方法并不能解決更加復(fù)雜的問題,比如,在那些可能存活超過一年的病人中,哪些病人該被給予最高的手術(shù)優(yōu)先性。一個完整的資源分配問題需要評估手術(shù)效果的異質(zhì)性,比如,因為一些病人有更高的手術(shù)并發(fā)癥。將稀缺資源優(yōu)化分配給手術(shù)效果能最大改善其福利的病人,是一個更加困難的問題,這個問題太長需要回答反事實的問題:采取那些以前從未實施過的各種替代分配政策后,會發(fā)生什么?

在另一個資源分配樣例中,產(chǎn)業(yè)領(lǐng)域很常見,就是使用 SML 預(yù)測客戶流失(即消費者放棄一家公司服務(wù))的概率,然后公司對那些具有高度流失風險的用戶給予干預(yù)(比如擴大銷售人員的服務(wù)范圍),以這樣的方式解決問題。Ascarza (12) 記錄了采取這類舉措的公司,然后使用借鑒自因果推理論文獻的方法提供了經(jīng)驗證明:根據(jù)一個簡單的預(yù)測模型來分配資源,并非最優(yōu)的做法。高度流失用戶組群和最優(yōu)可能回應(yīng)干預(yù)組群之間的重合只有 50%。因此,將留住用戶的問題視為一個預(yù)測問題,為公司帶來了更低的回報。

公共領(lǐng)域的資源分配問題是指一個城市應(yīng)該優(yōu)化分配監(jiān)察點的地點,以最小化安全或健康問題。紐約的 Firecast 算法是根據(jù)預(yù)測的違反概率來分配火警監(jiān)察點。Glaeser 等人 (6) 發(fā)明了一個類似的系統(tǒng)用于分配健康監(jiān)測點(這對波士頓餐廳)的位置,該系統(tǒng)得到了應(yīng)用,初步估計每次檢查后,30% 到 50% 的違法情況得到了改善。

如何優(yōu)化監(jiān)測點分配的決策問題將直接歸于預(yù)測領(lǐng)域——如果以下簡化假設(shè)為真:(1)被檢查單個單位的行為是固定的;(2)識別出問題時,能立刻低成本加以解決,成本并不因為單位(unit)不同而所有不同。知道哪個單位更有可能違法,等于知道哪個單位應(yīng)該得到監(jiān)察。不過,更加現(xiàn)實的環(huán)境還集成了不同單位的異質(zhì)性:一個建筑可能因為老化的電路而處在更高的失火風險中,但另一些考慮會讓置換老線路變得困難。另一些單位的預(yù)測風險更低,但是,更容易做出實質(zhì)改善,改善成本也低廉。另一個考慮是回應(yīng)(responsiveness)。如果違法被處以罰金,一些公司會比其他公司對罰金更加敏感。整體說來,解決城市監(jiān)察點分配的問題包括評估監(jiān)察政策的因果性:在新的監(jiān)測點分配機制下,你希望這個城市里單位(比如,食物中毒率)的整體質(zhì)量有什么樣的提升?

因此,預(yù)測和因果推論是本質(zhì)不同的兩個問題(盡管密切相關(guān))。只有分析師超過這些預(yù)測方法來做出假設(shè)時,因果推理才是可能的;這些假設(shè)通常不能被直接測試,因此需要領(lǐng)域?qū)<襾磉M行驗證。已經(jīng)有關(guān)于因果推論的橫跨多學(xué)科(社會科學(xué)、計算機科學(xué)、醫(yī)學(xué)、統(tǒng)計學(xué)、工程學(xué)以及流行病學(xué))大型文獻來分析這類問題(參看 Imbens and Rubin (13))。使用并非從隨機測試中獲取的數(shù)據(jù)來評估因果關(guān)系的辦法之一就是針對導(dǎo)致微分檢測概率(differential inspection probabilities)的因素進行調(diào)整,然后根據(jù)特定餐館健康結(jié)果 預(yù)測檢查的效果(或許使用審計)。近期的方法進展關(guān)注的是調(diào)節(jié)大數(shù)據(jù)應(yīng)用中觀察到的混雜因素(比如,14–16)這一文獻的主題之一就是現(xiàn)有的來自 SML 的預(yù)測模型招致了因果效果預(yù)測中的偏差問題,但是,持續(xù)有效的因果估計能夠通過修改 SML 技術(shù)得以實現(xiàn)。

另一個用于估計因果效應(yīng)的方法就是利用設(shè)計好的實驗。Blake et al. (17) 使用了一個以城市為基礎(chǔ)的雙重差法(difference-in-difference methodology)來評估 eBay 的搜索廣告的效果(因果)。就像許多搜索廣告商,eBay 靠歷史數(shù)據(jù)來測量搜索廣告的好處,不過,也確實試著區(qū)分開因果性和關(guān)聯(lián)性。而且,eBay 使用一個簡單的預(yù)測模型(其中,點擊被用來預(yù)測銷售)測量了廣告的效果,他們發(fā)現(xiàn)廣告點擊的投入回報(也就是說,由點擊所貢獻的 eBay 銷售與廣告點擊成本之比)大約為 1400%。

通過使用實驗數(shù)據(jù)測量廣告效果,作者發(fā)現(xiàn)真實的投入回報為 63%。天真的分析和實驗結(jié)果之間存在鴻溝的部分原因是許多點擊 eBay 搜索廣告的用戶本來是要從 eBay 買東西的。盡管點擊廣告強烈預(yù)示著一次交易——消費者通常會在點擊之后迅速購物——實驗揭示出,一次點擊很難說有大的因果效應(yīng),因為不管怎么說,點擊的消費者很可能要購物。

除了資源分配問題之外,純預(yù)測和因果推斷之間的區(qū)別幾十年來一直是很多領(lǐng)域內(nèi)方法和經(jīng)驗研究的主題。經(jīng)濟學(xué)對這個區(qū)別特別關(guān)注,或許是因為一些最基本的經(jīng)濟問題,如在不同的價格下消費者的需求變化,不能通過純預(yù)測模型來得到答案。舉個例子,同一個產(chǎn)品在不同(假定的)的價格水平下,消費者的購買量是多少?雖然這個問題似乎看起來可以直接套用 SML,將價格水平設(shè)置為一個說明性的特征(feature)來預(yù)測出銷售量的「結(jié)果」。在實際操作時,如果 SML 被用作一個估計價格與銷售量之間的因果效應(yīng)的方法,這個方法將會很失敗。假設(shè),一個分析師有酒店價格和入住率的歷史數(shù)據(jù)。一般情況下,價格和入住量是正相關(guān)的,因為酒店既有的價格政策(經(jīng)常通過利潤管理軟件來制定)明確規(guī)定當酒店預(yù)訂越來越滿時酒店提高價格。直接套用 SML 技術(shù)的應(yīng)用是為回答以下類型的問題所設(shè)計:如果一個分析師被告知在某天,客房價格非比尋常的高,那么這天最準確的入住量預(yù)測是多少?正確的答案是入住量將很可能很高。相反,改變價格政策的影響問題是一個因果問題,并且一般經(jīng)驗表明如果公司執(zhí)行一項新政策來系統(tǒng)性的提高酒店所有服務(wù)價格的 5%,那么酒店將很可能會有更多房間被入住。另一個不同系列的統(tǒng)計技術(shù)將可以用于回答這樣的問題,或許可以利用數(shù)據(jù)中「自然的實驗」即一個被稱之為「工具變量」的方法 [13 是對這些技術(shù)的回顧]。最近,一些作者將 SML 的優(yōu)勢同這些傳統(tǒng)小數(shù)據(jù)系列的方法結(jié)合起來了,為了用于估計典型因果效應(yīng)和私人化的因果效應(yīng)估計。

預(yù)測與因果推斷之間的區(qū)別之外,僅為預(yù)測而做的方法優(yōu)化也不能顧及到其他因素,這些因素可能在數(shù)據(jù)驅(qū)動的政策分析或者資源分配上很重要。例如,動機和可操控性可以很重要。如果一個建筑或者餐廳所有者依據(jù)這些特征,預(yù)料到被審查的可能性很小,他或她將減少安全措施上的投入。

在一個數(shù)據(jù)驅(qū)動政策的例子中,可操作性發(fā)揮了作用,不列顛哥倫比亞的市場定價系統(tǒng)(MPS)被用于對國有土地的木材收購的定價,這些國有土地是在長期租約下被分配給木材公司的。MPS 構(gòu)建出一個可以預(yù)測的模型,這個模型所運用的數(shù)據(jù)來自拍賣中木材的售價,該模型可以用于預(yù)測如果將長期租約下的一片土地的收獲木材拍賣所可能達到的價格。但是,一個租約持有者潛在很可能有在拍賣中人為低價競標的動機,從而達到影響模型對長期租約下收獲木材的價格預(yù)測,也即降低了他們長期租約下收獲木材的成本。作為模型選擇過程的一部分,MPS 的預(yù)測模型服從于仿真情境,使得任何單個大型木材公司都能實現(xiàn)各自的可操作性。這個已經(jīng)實現(xiàn)的模型并不是一個具有最好的預(yù)測性能的模型,最好的預(yù)測模型具有期望擁有的魯棒性而不是可操作性。

在實際運用統(tǒng)計模型時,很多其他需要考慮的問題涌現(xiàn)出來。有時候讓利益相關(guān)者理解一個已做出的決定的緣由是很重要的,或者決策者可能需要記住一個決策規(guī)則(如醫(yī)生)?;谕该鞫群涂山忉屝缘目紤],或許會導(dǎo)致分析師們偏好模型的簡單性而犧牲模型的預(yù)測能力。另外一個需要考慮的是公平性或者說歧視。美國貸放款的消費者保護法禁止實際應(yīng)用中有依據(jù)種族的歧視。一些公司可能希望運用 SML 方法從工作申請者中挑選出可以面試的申請者;但是他們可能希望在算法中設(shè)置多樣性目標,或者最起碼可以阻止性別和種族的不平等。在 SML 的文獻中可以看到這些問題在最近受到關(guān)注(如 21)。

總的來說,大數(shù)據(jù)如果想要在商業(yè)、科學(xué)以及政策上實現(xiàn)其全部潛力,從有監(jiān)督的機器學(xué)習(xí)的文獻來看,需要有由新的計算機算法所構(gòu)建的多學(xué)科方法;同時還能帶來使用經(jīng)驗證據(jù)來引導(dǎo)政策的數(shù)十年多學(xué)科研究的方法和實際學(xué)習(xí)。一個不成熟的但是快速成長的研究采取了這樣的一個方法:例如,2016 年的 ICML(International Conference on Machine Learning)對 SML 方法的因果推斷(casual inference)、可解釋性(interpretability)以及可靠性(reliability)分別組建研討會,雖然谷歌(22)、Facebook(23)和微軟(24)的多學(xué)科研究團隊已經(jīng)開發(fā)出了可以使用的工具包,且這些工具包擁有為實現(xiàn)因果推斷、實驗性的設(shè)計以及估計最優(yōu)資源分布政策的可擴展算法。隨著其他領(lǐng)域持續(xù)加入和 SML 研究團體一起用大數(shù)據(jù)來尋求現(xiàn)實世界政策問題的解決方案,我們預(yù)計數(shù)據(jù)驅(qū)動的政策在算法提升和成功實現(xiàn)上將會有更大的機會。

四、預(yù)測人類行為:下一個前沿

機器學(xué)習(xí)的進步正在變革我們對線下(offline)和線上(online)人類行為的理解。從訓(xùn)練集中分類我們感興趣的對象,無論這些對象是恐怖分子、需要維護的機器或包含惡意鏈接的電子郵件,其都代表了這一領(lǐng)域內(nèi)的巨大成功。或許不存在一種機器學(xué)習(xí)算法能將所有都做好。雖然精度是至關(guān)重要的,但是可接受的精度程度是隨著研究問題的變化而變化的,僅僅只有精度是遠遠不夠的。研究人員經(jīng)常解釋為什么他們的預(yù)測是正確的,但是從不解釋為什么他們的預(yù)測可能也是錯誤的。那么決策制定者同時了解這兩部分的原因?qū)⒂欣谒麄冎贫ǜ玫臎Q策。特別是在高風險的情況下,預(yù)測必須同時提供相應(yīng)的解釋,這樣才能為進一步研究提供更深入場景理解。

預(yù)測模型還必須為潛在的未來行動提供一個或多個解決方案,這樣決策者才能更好地決策。如今的機器學(xué)習(xí)方法并不一定滿足這三個標準。因為構(gòu)成理想的預(yù)測算法還是取決于現(xiàn)實應(yīng)用。通常,利益相關(guān)集團(如社會媒體平臺和搜索引擎)將對精度有不同的定義,從而滿足其特定的需求。此外,行業(yè)專家可以使用領(lǐng)域內(nèi)廣博的知識建議在數(shù)據(jù)集內(nèi)包含相關(guān)的獨立變量。通常,他們將使用由預(yù)測模型生成的技術(shù)精度測量和他們的學(xué)科中的內(nèi)容結(jié)合起來解釋預(yù)測結(jié)果,所有這些都表明在現(xiàn)實世界體系中,計算機科學(xué)家需要和其他利益相關(guān)者進行合作而取得深遠影響的結(jié)果。

在我們看來,下一代的預(yù)測模型需要解決以下四個主要的挑戰(zhàn)。

首先,更多數(shù)據(jù)總會獲得更好的預(yù)測模型這一格言并不總是正確的,因為數(shù)據(jù)中的噪點可能會壓垮預(yù)測模型。處理噪點、不完整和不一致數(shù)據(jù)的能力將會是下一代預(yù)測模型的核心。例如,在推特上識別「bots」就是尋求在政治候選人上持正觀點,而忽略尋求其它結(jié)果的大量「bots」。例如傳播垃圾郵件、尋求在其他主題上影響他們的觀點或欺騙用戶點擊鏈接從而為他們創(chuàng)造利潤的機器人。此外,許多推特的數(shù)據(jù)是受到限制的,在一些情況下甚至?xí)室猱a(chǎn)生誤導(dǎo)。所以機器人開發(fā)者就需要確保他們的機器人逃避檢測。

第二個挑戰(zhàn)是罕見事件預(yù)測。例如,公司監(jiān)控其內(nèi)部網(wǎng)絡(luò)來識別可能會竊取機密的用戶將會包含所有公司雇員的在公司內(nèi)部網(wǎng)絡(luò)活動的信息,其范圍包括從對員工的郵件分析、上傳(到網(wǎng)站)到下載到內(nèi)存存儲設(shè)備等。許多雇員對公司是誠實的,只有一小部分可能會存在問題。在這樣一個案例中,機器學(xué)習(xí)算法將很難從無辜用戶(這種情況下,數(shù)據(jù)稱為「不平衡」)中分離清楚那些「稀有」的個例,并且預(yù)測模型一般表現(xiàn)不太好。

預(yù)測新現(xiàn)象時保持模型的準確性是重要的第三步。社會運動常被分為五個步驟:導(dǎo)火索、社會動蕩增加、發(fā)展組織核心成員、組織的維持和終止(假如運動最終消亡了)。當事件還處于早期階段(如有人開始在 Twitter 上抱怨),準確預(yù)測之后發(fā)展的動向可以讓我們在其后更加激烈的沖突中受益。

第四個因素是人類的行為是動態(tài)變化的。我們的對手(如惡意軟件開發(fā)者或恐怖分子)會不斷適應(yīng)環(huán)境。因此,高階預(yù)測(關(guān)于預(yù)測模型的預(yù)測)的形式成為了關(guān)鍵。我們需要預(yù)測模型何時出錯,或何時人們行的為將發(fā)生改變,因此我們在太多錯誤發(fā)生之前就可以開發(fā)出新的預(yù)測模型。OpFake Android 惡意軟件的開發(fā)者最初設(shè)計這個病毒自動從受感染的手機發(fā)送短信給高價付費服務(wù)號碼。后來,開發(fā)者調(diào)整了策略,也開始涉足銀行卡欺詐。我們迫切地需要開發(fā)可以在發(fā)生時或甚至在發(fā)生之前識別這些危險行為的預(yù)測模型。

開源數(shù)據(jù)的爆炸和機器學(xué)習(xí)的發(fā)展徹底改變了我們分析人類行為的方式。在未來的幾年里,隨著物聯(lián)網(wǎng)的發(fā)展,這種多樣性會出現(xiàn)又一次爆炸——異構(gòu)數(shù)據(jù)。我們可能會遇到與不完整,不一致,不平衡和混亂數(shù)據(jù)相關(guān)的問題。生成準確預(yù)測和高質(zhì)量分析的能力,包括對預(yù)測的支持和證據(jù),以及提供可操作決策的能力,將是決定性的,因為機器學(xué)習(xí)系統(tǒng)將無處不在。一個數(shù)據(jù)驅(qū)動,多學(xué)科,多利益相關(guān)者的方法對于預(yù)測未來的模型而言至關(guān)重要。

五、特刊其他幾篇文章的摘要

(一)在線民調(diào):人民的脈搏

在線民調(diào)系統(tǒng)會成為民調(diào)預(yù)測工具,甚至替代品嗎?傳統(tǒng)的民意調(diào)查,無論是通過電話還是面對面的問詢都是費時費力的方式。而且這類方式的有效回復(fù)率已經(jīng)下跌至 10% 以下,只能為分析者提供一個帶偏見的小型樣本。而在線民調(diào)的方法,如 Twitter 分析可以讓研究人員直接研究數(shù)百萬群眾的政治觀點,實時更新,而且數(shù)據(jù)是免費的。然而無論傳統(tǒng)還是 Twitter 民調(diào)都沒有預(yù)測出去年 11 月份的美國大選結(jié)果。網(wǎng)絡(luò)看起來仍然無法讓我們摸清人民的脈搏。但社會科學(xué)家相信它終究會是正確的方式。

(二)社會系統(tǒng)的預(yù)測與解釋

社會科學(xué)研究者一直在尋求人類和社會現(xiàn)象機制的合理解釋,卻往往忽視了預(yù)測準確性。我們認為,社會科學(xué)越來越多的計算性質(zhì)已經(jīng)開始扭轉(zhuǎn)對于預(yù)測的偏見了。但是仍有三個重要問題亟待解決:首先,目前用于評估預(yù)測的方法必須進行標準化;第二,復(fù)雜社會系統(tǒng)中預(yù)測準確性的理論限制必須得到更好地表征,從而設(shè)置對可以預(yù)測或解釋的預(yù)期;第三,在評估解釋時,預(yù)測準確性和可解釋性必須被視為補充,而不是替代。解決這三大問題將使我們獲得更好,更可重復(fù)和更有意義的社會科學(xué)。

(三)通過預(yù)測競賽將概率判斷用于政策辯論

政策辯論經(jīng)常會受到不準確預(yù)測的影響,這讓決策者難以評估和改進政策。一項由美國情報機構(gòu)贊助的錦標賽展示了人們可以通過使用概率模擬來進行預(yù)測——即使是那些看似「獨特」的事件。同時,它也證明了比賽是生產(chǎn)知識的有效工具。根據(jù)關(guān)于問責制影響的文獻,作者認為競賽具有很大潛力,可以作為消除政治辯論和解決政策爭端的工具。

【本文是51CTO專欄機構(gòu)機器之心的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2024-01-31 14:50:50

人工智能智慧城市

2022-08-03 14:38:41

人工智能動物語言機器學(xué)習(xí)

2023-05-23 10:31:53

人工智能物聯(lián)網(wǎng)

2019-09-04 17:52:03

人工智能社會福布斯

2020-04-09 10:18:20

人工智能新冠疫情數(shù)據(jù)

2023-07-21 16:24:09

人工智能

2023-05-30 10:43:18

2021-03-22 12:08:30

人工智能

2023-08-10 14:06:12

人工智能智能家居養(yǎng)老

2023-05-26 10:54:57

人工智能環(huán)保房屋

2023-07-17 09:56:51

2022-11-09 10:39:27

2022-07-29 15:47:25

人工智能AI

2018-12-03 16:10:17

人工智能新藥研發(fā)藥物開發(fā)

2023-07-11 10:57:08

人工智能AI

2023-10-07 11:38:05

人工智能智能建筑

2022-08-02 14:05:48

人工智能數(shù)據(jù)安全隱私

2025-03-10 10:12:25

2022-06-20 11:05:58

通用人工智能機器人
點贊
收藏

51CTO技術(shù)棧公眾號