偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)算法天花亂墜的時代,如何識別“數(shù)據(jù)陷阱”?

大數(shù)據(jù)
“數(shù)據(jù)成了新式胡扯者的殺手锏”。但我們絕不否認(rèn)科學(xué)是理解物理世界的一個成功的標(biāo)準(zhǔn)手段。不管我們抱怨什么,不管我們發(fā)現(xiàn)了什么偏見,不管我們遇到什么問題,不管我們說了什么廢話,科學(xué)最終還是會成功的。

過去的一周,你心情咋樣?

除了股票基金過山車般的漲跌之外,工作例會上,你使用的數(shù)據(jù)PPT模板讓展示更加美觀有趣,獲得老板好評。

一把游戲結(jié)束,系統(tǒng)自動送上戰(zhàn)力統(tǒng)計,你的隊友明顯拖了后腿,下次不要和ta組隊了。

此時手機(jī)又提醒你視屏?xí)r間過長,建議休息一下,因?yàn)榭茖W(xué)研究表明,連續(xù)視屏超過x小時便會使視力下降y%……

我們信任數(shù)據(jù),認(rèn)為數(shù)據(jù)總是客觀情況的客觀反映??墒聦?shí)真的如此嗎?

2018年,復(fù)旦大學(xué)開設(shè)了一門新的通識課程,邀請學(xué)校多個專業(yè)的教授對學(xué)生每天可能接觸到的信息進(jìn)行“真?zhèn)舞b定”,向?qū)W生闡述什么是“偽科學(xué)”,一經(jīng)開課便節(jié)節(jié)爆滿。

這門名叫“似是而非”的新課并非復(fù)旦大學(xué)首創(chuàng),它的靈感來源于美國華盛頓大學(xué)的“拆穿胡扯”(Calling Bullshit)公開課。

這門課由生物學(xué)教授卡爾·伯格斯特龍和信息學(xué)副教授杰文·韋斯特聯(lián)合主講,他們從邏輯和傳播渠道的角度揭開數(shù)據(jù)偽科學(xué)如何產(chǎn)生與傳播。課程信息一掛在官網(wǎng)就被搶光名額。

這兩門課如此火爆,原因是相同的:識別數(shù)據(jù)陷阱,已然成為當(dāng)代生活的剛需。數(shù)據(jù)信息真的可以為“偽科學(xué)”操控,雖然我們已經(jīng)能夠識別出披著“震驚×××”外衣的老式胡扯,但它們分裂出來的新亞種令人眼花繚亂。

伯格斯特龍和韋斯特將這些把戲統(tǒng)稱為“胡扯”,這門教大家識別并指斥胡扯的課程廣受好評,講義的衍生書籍保留了課程辛辣的原名,中文版便是《拆穿數(shù)據(jù)胡扯》。

何為胡扯?

那么胡扯到底指什么呢?

作者伯格斯特龍和韋斯特認(rèn)為:

  • 胡扯就是全然不顧事實(shí)、邏輯連貫性或?qū)嶋H傳遞的信息,而是利用語言、統(tǒng)計數(shù)字、數(shù)據(jù)圖表和其他表現(xiàn)形式,通過分散注意力、震懾或恐嚇等方法,達(dá)到說服或打動聽話人的目的。

數(shù)據(jù)胡扯的最終目的,是通過有意為之的操作,使本應(yīng)該客觀的數(shù)據(jù),為己所用。

我們暴露在胡扯面前的時間和機(jī)率可能遠(yuǎn)遠(yuǎn)超過我們所認(rèn)為的,形式也是五花八門。

胡扯的視覺把戲

“大鴨子”是一個養(yǎng)鴨戶于1931年建造的鴨子形商店,如今已經(jīng)成為一個受人喜愛的地標(biāo)。

但是作為一座建筑,大鴨子并沒有什么特別的功能。在建筑理論中,它已經(jīng)成為形式優(yōu)先于功能的標(biāo)志,“鴨子”也由此成了裝飾超過用途的建筑的代名詞。

相似地,形式大于數(shù)據(jù)的圖形就可被稱為“鴨子”。

下面這個圖形的設(shè)計者用兩個餐叉的尖齒代表?xiàng)l形圖中的條形。

這樣做有什么壞處呢?壞處很多:

  • 條形是圖形中承載信息的部分,但它們在這張圖中只占了很小一部分空間;
  • 傾斜的角度也會引發(fā)爭議,因?yàn)槲覀儾涣?xí)慣解讀這種角度的條形圖;
  • 兩把餐叉并排,但底部水平線并沒有對齊,容易造成錯覺;

幸好數(shù)值被寫出來了。但如果必須依靠數(shù)值來解讀圖形,為什么不直接用表格避免前三個壞處呢?

我們說胡扯就是公然無視事實(shí)和邏輯連貫性,企圖通過分散注意力、震懾或恐嚇來說服或打動受眾。

但可愛有什么不對嗎?其實(shí)“鴨子”真正讓我們擔(dān)心的原因在于,試圖裝得可愛會讓讀者更難理解它表示的數(shù)據(jù),逐漸變成胡扯。

比如這張圖,創(chuàng)意可嘉,但是把一個餅形圖扭曲成羊角,只會在讀者對這些數(shù)量進(jìn)行視覺比較時增加難度。

數(shù)據(jù)可視化的“鴨子”只是有胡扯的影子,那么被我們稱為“水晶鞋”的那一類數(shù)據(jù)可視化就是完美的胡扯。

“水晶鞋”是將一種類型的數(shù)據(jù)硬套上用于展示另一類數(shù)據(jù)的視覺形式。這樣做的目的是借用好的可視化形式的權(quán)威性表現(xiàn)自己的權(quán)威性,完全不考慮數(shù)據(jù)本身與形式的兼容性。

就像格林兄弟的原版《灰姑娘》故事中,繼姐為了穿上水晶鞋切掉了腳趾,削平了腳后跟。

其中最被濫用的形式之一就是地鐵線路圖,它甚至引發(fā)了元層級的評論——“以地鐵線路圖作為象征的地圖的地鐵線路圖”。

以地鐵線路圖作為象征的地圖的地鐵線路圖

另一種流行的圖表形式是帶標(biāo)簽的示意圖。這種圖的“重災(zāi)區(qū)”之一,就是PPT。

誰沒用過幾個看起來豐富、有趣又清晰的PPT模板呢?或者自創(chuàng)一些可愛的模型,就像這只獨(dú)角獸。

然而圖表上的標(biāo)簽毫無道理可言。前肢與“機(jī)器學(xué)習(xí)”和“可視化”有什么關(guān)系?為什么“R編程”與后腿有關(guān)呢?右后腿為什么沒有加標(biāo)簽?為什么頭部的“分析型思想者”指的是一種人,而身體的其他部分指的是技能?……

扭曲的數(shù)字黑箱

如果我們給“鴨子”們“拔毛”,讓數(shù)據(jù)赤裸裸地呈現(xiàn)在我們眼前,是不是就可以規(guī)避掉胡扯了?一定意義上是的,但不絕對。因?yàn)檫€存在著另一種更加隱形的欺詐——數(shù)據(jù)的來源本身。

當(dāng)科學(xué)家測量元素的原子質(zhì)量時,這些元素不會密謀增加自己的重量,以便把自己在元素周期表上的位置悄悄往后挪一點(diǎn)兒。

順便說一句,元素周期表也是一款常用“水晶鞋”

但是,管理者往往會有所體會——當(dāng)他們衡量員工的工作效率時,員工往往會在量化數(shù)據(jù)上做文章,以讓工作表現(xiàn)更好看一些。

我們在很多領(lǐng)域都能看到這個現(xiàn)象。

當(dāng)汽車銷售人員按達(dá)成的銷售額獲得獎金時,他們就會為客戶提供更大的折扣,以便快速完成銷售額;而當(dāng)銷售數(shù)量成為目標(biāo)時,銷售人員也會提供更大的折扣,以快速增加銷售量。

這兩個方式并不能都保證利潤成正比增長,而利潤往往是企業(yè)最看重的。

這便是“古德哈特定律”:

  • 指標(biāo)變成目標(biāo)后,就不再是一個好的指標(biāo)。

如果某個指標(biāo)附加有足夠多的獎勵,人們就會想方設(shè)法地提高自己的得分,而這樣做就會削弱該指標(biāo)原本的評估價值。正是量化指標(biāo)本身改變了需要量化的對象的行為。

還有一種更接近純粹胡扯的現(xiàn)象——數(shù)學(xué)濫用,而且它并不罕見。

數(shù)學(xué)濫用(Mathiness)指的是那些看起來都像是數(shù)學(xué)表達(dá)式的東西,但它們和數(shù)學(xué)可以說是毫無關(guān)系。

比如信任方程:

按照這個方程,當(dāng)自利感降到最低時,信任度就會非常高,那么我們是不是應(yīng)該根據(jù)拋硬幣的結(jié)果決定一切呢?畢竟硬幣真實(shí)可靠又不會自私自利。

又如“一年中最悲傷的一天”(一月的第三個星期一)的公式:

W代表天氣,d代表債務(wù),T代表圣誕節(jié)以來的時間,Q代表放棄新年決心以來的時間,M代表干勁不足,Na代表采取行動的必要性。(不清楚D在公式中代表什么。)

看起來多么像是一種嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)方法!但它到底是什么意思呢?這些量如何測量,單位又是什么?如果只是要表達(dá)正相關(guān)還是負(fù)相關(guān),那么大可不必采取這種形式,它不但無用,還會讓人費(fèi)解。

數(shù)據(jù)胡扯,科學(xué)領(lǐng)域也不能幸免

是的,科學(xué)領(lǐng)域也會屢屢中招。

還記得古德哈特定律嗎?“指標(biāo)變成目標(biāo)后,就不再是一個好的指標(biāo)?!痹诳茖W(xué)領(lǐng)域,使用引文指標(biāo)來衡量期刊質(zhì)量已經(jīng)導(dǎo)致編輯鉆制度空子。

有的期刊會在1月份發(fā)表更多文章,這樣一來,這些文章本年度被引用的機(jī)會就會增加。所有這些反常的行為都違背了期刊的使命,削弱了引用數(shù)作為質(zhì)量指標(biāo)的有效性。

類似地,對科研人士的論文數(shù)量指標(biāo)催生了只要給錢便可發(fā)表文章的“掠奪性期刊”,也讓科研領(lǐng)域成為了胡扯的高發(fā)地帶。

雖然掠奪性期刊的主要客戶是給簡歷增色的邊緣學(xué)術(shù)人,但也包括氣候懷疑論者、反對疫苗者、神創(chuàng)論者和艾滋病否認(rèn)論者。

他們以版面費(fèi)為代價換取在科研領(lǐng)域的“一面之地”,然后說他們的邊緣信仰通過了“同行評議”的科學(xué)。這是典型的胡扯污染。

作為讀者,我們沒有任何萬無一失的方法,可以確定無疑地知道一篇科學(xué)論文是否完全正確。但伯格斯特龍和韋斯特提醒我們,至少要保持合理的懷疑,這是辨別胡扯的第一步。

比如注意論文中的論斷與它是在哪兒發(fā)表的是否相匹配,尤其要警惕低層次期刊上出現(xiàn)的異乎尋常的論斷。

拆穿胡扯,你需要一些技巧

辨別可能的胡扯的最終目的,是指斥胡扯。

然而清除胡扯的代價要遠(yuǎn)遠(yuǎn)高于制造胡扯,哪怕真正符合科研方法論的論文也是如此。

伯格斯特龍和韋斯特就借助一個精彩的駁斥案例,反證了這種“高端胡扯”的屏蔽性與危險。他們給這種方法取名為“令人難忘駁斥法”。

這個令人難忘的針對功能磁共振成像技術(shù)(fMRI)的駁斥出現(xiàn)在一次神經(jīng)科學(xué)會議上。

fMRI能夠幫助神經(jīng)科學(xué)家探索哪些大腦區(qū)域參與了哪些認(rèn)知,典型的研究會比較對象和對照組的fMRI圖像,并思考為什么大腦的某些部分亮度有所不同。

但是,實(shí)驗(yàn)軟件必須對評估結(jié)果的統(tǒng)計學(xué)意義做出假設(shè)。而最近的一項(xiàng)研究表明,這些假設(shè)有時會嚴(yán)重夸大差異。問題已經(jīng)暴露,但科學(xué)家們并未對這個問題的嚴(yán)重性達(dá)成一致。

于是一份標(biāo)題為《通過死大西洋鮭魚研究人類神經(jīng)活動:論多重比較校正的重要性》的學(xué)術(shù)墻報登場了。你沒看錯:一條死鮭魚。

這是一個故意為之的愚蠢實(shí)驗(yàn)。研究人員跟那條死魚交談,還給它看了人們在不同社交環(huán)境中的照片。結(jié)果令人震驚。當(dāng)鮭魚被問及人們的情緒時,影像顯示它腦干的幾個區(qū)域表現(xiàn)出來的活躍性高于它在“休息”時的活躍性。

這還只是對人類社交場景的“反應(yīng)”,想象一下,如果這條鮭魚被問及鮭魚的情緒,這些區(qū)域會多么明亮。

要么是我們在死魚認(rèn)知方面取得了驚人發(fā)現(xiàn),要么是我們未經(jīng)修正的統(tǒng)計方法出了問題。

指斥胡扯不只是為了增強(qiáng)自信,它還是一種道義上的責(zé)任。正如我們在開頭所說,世界充斥著各式各樣的胡扯,有些是無傷大雅的,有些是小麻煩,還有一些甚至很有趣,但很多胡扯會給科學(xué)的誠實(shí)和生死攸關(guān)的決策帶來嚴(yán)重的后果。

“數(shù)據(jù)成了新式胡扯者的殺手锏”。但我們絕不否認(rèn)科學(xué)是理解物理世界的一個成功的標(biāo)準(zhǔn)手段。不管我們抱怨什么,不管我們發(fā)現(xiàn)了什么偏見,不管我們遇到什么問題,不管我們說了什么廢話,科學(xué)最終還是會成功的。

部分內(nèi)容摘編自《拆穿數(shù)據(jù)胡扯》,中信出版社出版。

責(zé)任編輯:未麗燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2020-03-04 17:19:35

無服務(wù)器架構(gòu)計算

2014-12-01 17:18:29

Teradata 大數(shù)據(jù)天睿

2019-08-19 09:35:22

大數(shù)據(jù)數(shù)據(jù)算法算法崇拜

2015-07-15 10:49:37

SDN管理網(wǎng)絡(luò)

2012-11-27 11:10:11

云計算經(jīng)濟(jì)

2018-07-23 14:51:22

2016-08-22 12:50:11

2021-06-30 07:08:14

安全解決方案XDR安全技術(shù)

2021-10-29 22:45:47

大數(shù)據(jù)算法技術(shù)

2014-08-08 09:48:09

2017-06-09 05:55:56

存儲機(jī)器學(xué)習(xí)人工智能

2015-12-14 17:52:06

ENI經(jīng)濟(jì)和信息化網(wǎng)

2013-06-13 09:42:11

大數(shù)據(jù)

2012-05-14 10:09:19

大數(shù)據(jù)Hadoop云計算

2016-09-20 10:15:40

華為

2023-09-20 16:33:09

大數(shù)據(jù)數(shù)據(jù)指標(biāo)

2021-09-30 16:28:34

大數(shù)據(jù)數(shù)據(jù)管理企業(yè)

2021-08-04 16:44:22

大數(shù)據(jù)數(shù)據(jù)安全技術(shù)

2013-09-17 18:24:46

SAP

2013-12-02 10:02:30

大數(shù)據(jù)時代
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號