你是怎樣“被平均”的?細(xì)數(shù)統(tǒng)計(jì)數(shù)據(jù)中的那些坑
我們使用統(tǒng)計(jì)數(shù)據(jù)(通常以不合適的方式)來(lái)揭示戰(zhàn)爭(zhēng)傷亡人數(shù)的增加或減少,提醒公眾注意發(fā)病率的變化,測(cè)量一種新產(chǎn)品的銷量,判斷某一只股票的賺錢能力,決定下一張牌是A的概率,衡量不同大學(xué)的畢業(yè)率,記錄不同年齡段的人們性生活的頻率,為很多其他問(wèn)題提供資源和信息。
統(tǒng)計(jì)數(shù)據(jù)(statistics)就是用數(shù)字表達(dá)出來(lái)的證據(jù)。這樣的證據(jù)可能看起來(lái)非常動(dòng)人,因?yàn)閿?shù)字讓證據(jù)顯得非常有科學(xué)性,非常精確,似乎它就代表了“事實(shí)”。但是,統(tǒng)計(jì)數(shù)據(jù)能,而且經(jīng)常會(huì),撒謊!它們并不必然就能證明它們想要證明的一切。
兩種不同的提供數(shù)據(jù)的方式有可能會(huì)產(chǎn)生欺騙性:
小貼士:統(tǒng)計(jì)數(shù)據(jù)可能而且經(jīng)常騙人。它們并不必然就能證明表面上想要證明的一切。
作為一個(gè)會(huì)思考和判斷的人,你應(yīng)該努力辨別出錯(cuò)誤的統(tǒng)計(jì)數(shù)據(jù)式的論證。在幾個(gè)較短的段落中,我們無(wú)法向你全面展示人們用“統(tǒng)計(jì)數(shù)據(jù)幫忙撒謊”的所有不同方法。但是,本文我們將為你提供一些基本策略,這樣你就可以用來(lái)發(fā)現(xiàn)這些騙人的小伎倆。
同時(shí),它還通過(guò)展示許多作者錯(cuò)誤使用統(tǒng)計(jì)數(shù)字來(lái)當(dāng)證據(jù)的最常見的方法,提醒你注意數(shù)據(jù)論證中存在的缺陷。
關(guān)鍵問(wèn)題:數(shù)據(jù)有沒(méi)有欺騙性?
01 不知來(lái)歷和帶有偏見的數(shù)據(jù)
最近的一個(gè)新聞標(biāo)題:40%的大學(xué)生飽受抑郁癥的折磨!
在你情緒低落的時(shí)候你該不該過(guò)分擔(dān)心呢?你又怎么知道自己可以相信這樣的統(tǒng)計(jì)數(shù)字?
任何統(tǒng)計(jì)數(shù)字都要求發(fā)生在某地的某些事件能被界定并準(zhǔn)確識(shí)別出來(lái),這常常是一項(xiàng)非常艱巨的任務(wù)。因此,要找出欺騙性的數(shù)據(jù),第一個(gè)策略就是盡量找到足夠多的關(guān)于這些數(shù)據(jù)是如何采集的信息。
我們能不能準(zhǔn)確地知道美國(guó)到底有多少人在報(bào)稅單上做過(guò)手腳,多少人有過(guò)婚前性行為,多少人開車打手機(jī),或多少人使用違禁藥品?如果你想象一下做這些統(tǒng)計(jì)的細(xì)枝末節(jié),那么我們懷疑你的答案肯定會(huì)是“不太可能”。
為什么?因?yàn)橐獮樘囟ǖ哪康牡玫骄_的數(shù)據(jù),你常常會(huì)遇到各種各樣的攔路虎和絆腳石,其中包括關(guān)鍵詞語(yǔ)的模棱兩可,識(shí)別相關(guān)人員或事件的種種困難,人們不愿意提供真實(shí)的信息,不能報(bào)告各種事件,還有觀察事件時(shí)存在的種種身體上的障礙等。
因此,統(tǒng)計(jì)數(shù)據(jù)的形式往往只能是基于事實(shí)做出的一些估計(jì)。這些估計(jì)有時(shí)候很有用,但它們也可能有欺騙性。記住總要問(wèn)一問(wèn),“作者是怎樣得出這個(gè)估計(jì)的?”得到的細(xì)節(jié)越多越好。
不知來(lái)歷的統(tǒng)計(jì)數(shù)字最常見的一個(gè)用處就是用大量的數(shù)字給別人加深印象或讓別人肅然起敬,這些呈現(xiàn)出來(lái)的數(shù)字的精確性常常會(huì)讓人懷疑。比如說(shuō),大量的數(shù)字可能被用來(lái)提醒公眾注意日漸增長(zhǎng)的身體失調(diào)或精神失常的發(fā)生率,例如癌癥、飲食異常或幼年孤僻癥等。
如果我們能知道這些數(shù)據(jù)確定的過(guò)程是如何得謹(jǐn)慎,我們肯定更會(huì)深受這些數(shù)據(jù)的感染。比如說(shuō),一直以來(lái)人們都在努力統(tǒng)計(jì)大學(xué)生抑郁癥發(fā)病率的準(zhǔn)確數(shù)字,但是不知來(lái)歷的數(shù)據(jù)問(wèn)題已經(jīng)成為影響統(tǒng)計(jì)的一個(gè)主要因素,研究報(bào)上來(lái)的發(fā)病率在10%~40%之間。
所以,本部分一開始提到的那份研究如果讓你覺(jué)得過(guò)度驚慌的話,那你未免顯得有些杯弓蛇影。記?。涸趯?duì)這樣的數(shù)據(jù)做出反應(yīng)之前,我們先要問(wèn)一問(wèn)它們是怎么得來(lái)的。
02 令人困惑的平均值
請(qǐng)檢查下面的陳述:
- 快速致富的一個(gè)方法就是做一名職業(yè)足球隊(duì)員,2010年國(guó)家足球聯(lián)盟球星的平均收入是180萬(wàn)美元。
- 在大學(xué)里取得好成績(jī),學(xué)生需要付出的努力越來(lái)越少了。根據(jù)最近一項(xiàng)調(diào)查,大學(xué)生每周平均花在學(xué)習(xí)上的時(shí)間是12.8小時(shí),和20年前的大學(xué)生相比大概只有他們的一半。
兩個(gè)例子當(dāng)中都使用了“平均”這個(gè)詞。但是實(shí)際上卻有三種不同的方法來(lái)測(cè)定平均值,而且在大多數(shù)情況下,每種方法都會(huì)給出不同的數(shù)值。
- 第一種方法是把所有數(shù)值相加,然后用總數(shù)除以相加的數(shù)目。這種方法所得的結(jié)果就是平均數(shù)(mean)。
- 第二種方法是將所有數(shù)值從高到低排列,然后找到位于最中間的數(shù)值,這個(gè)中間數(shù)值就是中位數(shù)(median)。有一半的數(shù)值在中位數(shù)之上,另一半在中位數(shù)下面。
- 第三種方法是將所有數(shù)值排列好,計(jì)算每個(gè)不同數(shù)值出現(xiàn)的次數(shù)或每個(gè)不同數(shù)值范圍出現(xiàn)的次數(shù),出現(xiàn)頻率最高的數(shù)值就叫作眾數(shù)(mode),這是第三種平均值。
作者談?wù)摰氖瞧骄鶖?shù)、中位數(shù)還是眾數(shù),將會(huì)產(chǎn)生很大的區(qū)別。
平均值的種類:
- 平均數(shù):通過(guò)把所有數(shù)值相加然后用總數(shù)除以相加的數(shù)目來(lái)計(jì)算
- 中位數(shù):通過(guò)將所有數(shù)值從高到低排列然后找到位于最中間的數(shù)值來(lái)測(cè)定
- 眾數(shù):通過(guò)計(jì)算不同數(shù)值出現(xiàn)的次數(shù)然后找出出現(xiàn)頻率最高的數(shù)值的方法來(lái)測(cè)定
第一個(gè)例子當(dāng)中取什么平均值最能說(shuō)明問(wèn)題?請(qǐng)考慮一下職業(yè)化運(yùn)動(dòng)當(dāng)中大牌球星的收入與那些一般球員的收入對(duì)比。最大牌的球星,比如說(shuō)橄欖球明星四分衛(wèi),收入比球隊(duì)里大部分其他球員要高出很多。
事實(shí)上,2010年度薪酬最高的橄欖球運(yùn)動(dòng)員歲入超過(guò)1 500萬(wàn)美元,而這遠(yuǎn)遠(yuǎn)高于平均值。這樣高的收入將會(huì)急劇拉高平均數(shù),但是對(duì)于中位數(shù)或眾數(shù)而言則影響不大。
舉例來(lái)說(shuō),國(guó)家橄欖球聯(lián)盟的球員2010年度工資平均數(shù)是180萬(wàn)美元,但是其工資中位數(shù)卻只有77萬(wàn)美元。因此,在大部分職業(yè)運(yùn)動(dòng)當(dāng)中,平均數(shù)工資要比中位數(shù)工資或者眾數(shù)工資高出很多。所以,如果有人想讓工資水平顯得非常非常高,他就會(huì)選擇平均數(shù)作為平均值。
現(xiàn)在讓我們來(lái)仔細(xì)看看第二個(gè)例子。如果這里列舉的平均值要么是中位數(shù)要么是眾數(shù),我們有可能就高估了平均的學(xué)習(xí)時(shí)間。有些學(xué)生很可能花了極多的學(xué)習(xí)時(shí)間,比如一周30或40個(gè)小時(shí),這樣就提高了平均數(shù)的數(shù)值,但是卻不影響中位數(shù)或者眾數(shù)的數(shù)值。學(xué)習(xí)時(shí)間的眾數(shù)數(shù)值可能遠(yuǎn)低于或遠(yuǎn)高于中位數(shù),主要取決于多長(zhǎng)的學(xué)習(xí)時(shí)間對(duì)學(xué)生而言最為常見。
當(dāng)你見到平均值的時(shí)候,一定要記得問(wèn)一下:“是平均數(shù)、中位數(shù)還是眾數(shù),平均值的含義不同會(huì)不會(huì)產(chǎn)生什么影響?”要回答這個(gè)問(wèn)題,請(qǐng)想一想平均值的不同含義會(huì)給信息的意義帶來(lái)怎樣的變化。
不僅判斷一個(gè)平均值是平均數(shù)、中位數(shù)還是眾數(shù)非常重要,判定最小數(shù)值和最大數(shù)值之間的差距,即全距(range)以及每個(gè)數(shù)值出現(xiàn)的頻率,也就是數(shù)值分布,常常也顯得異常重要。
下面我們來(lái)看一個(gè)例子,在這個(gè)例子里知道數(shù)值的全距和分布就顯得非常重要。
醫(yī)生對(duì)20歲的病人說(shuō):你所患癌癥的預(yù)后不容樂(lè)觀?;纪瑯影┌Y的病人存活時(shí)間的中位數(shù)是10個(gè)月。所以剩下來(lái)的這幾個(gè)月你想做什么就做點(diǎn)什么吧,不必有什么顧慮了。
病人聽到醫(yī)生給出這樣的診斷結(jié)果,對(duì)自己的未來(lái)該做出怎樣可怕的展望呢?首先,我們確定知道的是獲得這種診斷的病人有一半不到10個(gè)月就去世了,還有一半人存活時(shí)間超過(guò)了10個(gè)月。
但是我們并不知道活下來(lái)的那部分人的存活時(shí)間的全距和數(shù)值分布。也許存活時(shí)間超過(guò)10個(gè)月的病人的數(shù)值全距和分布會(huì)顯示,有些人、甚至很多人活得遠(yuǎn)遠(yuǎn)超過(guò)了10個(gè)月的時(shí)間。其中有些人、甚至很多人可能活到80歲以上呢!知道病人存活情況的完整分布可能會(huì)改變這個(gè)癌癥患者對(duì)未來(lái)的看法。
一般來(lái)說(shuō),病人應(yīng)該考慮國(guó)內(nèi)不同的醫(yī)院對(duì)于他的疾病的存活率是不是有不同的全距和數(shù)值分布。這樣的話,他就應(yīng)該考慮選擇在那家有最樂(lè)觀的數(shù)值分布情況的醫(yī)院就診。
當(dāng)我們遇到平均數(shù)的時(shí)候,記住全距和數(shù)值分布的一個(gè)總體好處,就是這樣做會(huì)提醒你,大多數(shù)人或事并不完全符合確切的平均值,與平均數(shù)值差異極大的結(jié)果也在預(yù)料之中。
例如,很多旨在促進(jìn)我們健康狀況的干預(yù)措施,都會(huì)展示某些健康手段的平均獲益情況,盡管參與這項(xiàng)研究的許多人獲益極少或基本沒(méi)有獲益,有些人甚至還會(huì)不同程度地受損。
03 把一件事的結(jié)論用來(lái)證明另一件事
有些數(shù)據(jù)確實(shí)能證明一件事,而立論者往往宣稱這些數(shù)據(jù)證明了另一件性質(zhì)完全不同的事,這時(shí)候他們往往在欺騙我們。這些數(shù)據(jù)壓根兒就證明不了它們用來(lái)證明的一切!有兩種策略可以幫你找出這類欺騙。
一個(gè)策略就是對(duì)立論者提供的數(shù)據(jù)視而不見,然后問(wèn)自己:“什么樣的統(tǒng)計(jì)數(shù)據(jù)作證據(jù),在證明他的結(jié)論時(shí)會(huì)有幫助?”然后,將“所需”的數(shù)據(jù)和給出的數(shù)據(jù)進(jìn)行比較。如果兩者之間難以吻合,你可能就發(fā)現(xiàn)了一個(gè)數(shù)據(jù)上的欺騙。下面的例子為你提供一個(gè)機(jī)會(huì)來(lái)應(yīng)用這種策略。
如果你乘坐我們這座城市的地鐵,十有八九你的手機(jī)會(huì)被人偷走。我剛讀到一份統(tǒng)計(jì)數(shù)字,說(shuō)小的電子產(chǎn)品占到地鐵系統(tǒng)失竊率的70%。
需要做什么樣的研究才能獲得個(gè)好主意,可以知道自己乘地鐵時(shí)電子產(chǎn)品被人偷走的可能性到底有多大。你自然想知道乘地鐵被偷的概率,而不是被偷走電子產(chǎn)品的概率。這個(gè)數(shù)據(jù)證明了一件事,即地鐵系統(tǒng)的大部分偷竊行為都是奔著小電子產(chǎn)品去的。但它并沒(méi)有證明這類偷竊行為發(fā)生的概率有多大。
要回答這個(gè)問(wèn)題,你需要這樣問(wèn),在坐地鐵的時(shí)候被偷的概率到底是多少?有可能總體的偷竊行為非常少,但是其中大部分都牽涉到小電子產(chǎn)品。從這個(gè)例子當(dāng)中得到的最重要的教訓(xùn)就是:我們一定要加倍注意統(tǒng)計(jì)數(shù)據(jù)和結(jié)論的措辭,看看二者是不是指的同一件事情。如果不是,作者或演說(shuō)者就很可能是在用數(shù)據(jù)說(shuō)謊。
知道什么樣的數(shù)據(jù)證據(jù)應(yīng)被用來(lái)支持一個(gè)結(jié)論是很難的。因此,另一個(gè)策略就是不急于去看作者的結(jié)論,而是先仔細(xì)檢查作者的數(shù)據(jù),然后問(wèn)自己,“從這些數(shù)據(jù)我們可以得出什么合適的結(jié)論?”然后拿你的結(jié)論和作者的結(jié)論相比較。請(qǐng)用這個(gè)策略來(lái)檢驗(yàn)下面這個(gè)例子。
大約半數(shù)的美國(guó)人欺騙了自己的另一半。研究人員最近在一家購(gòu)物中心采訪了很多人。在接受采訪的75人當(dāng)中,有36人坦承他們有朋友曾承認(rèn)欺騙過(guò)自己的約會(huì)對(duì)象。
你有沒(méi)有想到這個(gè)例子一開始得出的結(jié)論?大約一半人在某個(gè)特定地點(diǎn)承認(rèn)有朋友告訴過(guò)自己,他們?cè)诤退思s會(huì)或交往過(guò)程中至少有過(guò)一次欺騙行為。你有沒(méi)有看出數(shù)據(jù)所證明的東西和作者的結(jié)論之間存在著巨大的差異?如果你看出來(lái)了,那你就發(fā)現(xiàn)了這位作者是如何利用數(shù)據(jù)來(lái)撒謊和欺騙的。
04 通過(guò)省略信息欺騙
統(tǒng)計(jì)數(shù)據(jù)經(jīng)常因?yàn)椴煌暾垓_了我們。因此,另一個(gè)在數(shù)據(jù)論證中找到缺陷的非常有用的策略就是問(wèn)一問(wèn):“在判斷數(shù)據(jù)的影響力之前,還需要什么進(jìn)一步的信息?”讓我們先看看下面的例子,展示一下這個(gè)問(wèn)題所起的作用。
- 大公司正在將市中心地帶的小鎮(zhèn)氣息破壞殆盡。就在去年,城里的大公司的數(shù)目增長(zhǎng)了75%。
- 盡管大家都挺害怕,但跳傘運(yùn)動(dòng)其實(shí)比其他活動(dòng)比如說(shuō)駕駛汽車要安全得多。拿某一個(gè)月的時(shí)間來(lái)作比較,這段時(shí)間里,洛杉磯有176人死于車禍,而死于跳傘事故的卻只有3人。
- 艾滋病預(yù)防項(xiàng)目需要較大的資金增幅。2009年,有54 000人飽受艾滋病的折磨。
第一個(gè)例子中,75%這個(gè)數(shù)字很吸引眼球。但是缺少了一些東西:這個(gè)百分比所依據(jù)的絕對(duì)數(shù)值。假如我們知道這種增長(zhǎng)是從4家增長(zhǎng)到7家,而不是從12家增長(zhǎng)到21家,我們還會(huì)覺(jué)得如此驚訝嗎?
在第二個(gè)例子里,我們倒是有數(shù)字了,但是卻不知道比率。難道我們不需要知道這些數(shù)字對(duì)參加這兩種活動(dòng)的人數(shù)的百分比來(lái)說(shuō)有什么意義嗎?不論怎樣,參加跳傘活動(dòng)的總?cè)藬?shù)比起駕車的總?cè)藬?shù)而言簡(jiǎn)直是微不足道。
第三個(gè)例子展示了我們社會(huì)中常見的一個(gè)事實(shí),通過(guò)聚焦全國(guó)范圍內(nèi)受病痛折磨的總?cè)藬?shù),企圖引起公眾對(duì)某個(gè)社會(huì)問(wèn)題的關(guān)注。盡管這顯然是個(gè)亟待解決的問(wèn)題,但當(dāng)我們將54 000除以美國(guó)的大概總?cè)丝?億人,我們只得到一個(gè)大概0.02%的數(shù)值。
當(dāng)你遇到聽起來(lái)讓人動(dòng)心的數(shù)字或者百分比,一定要當(dāng)心!你可能需要其他信息來(lái)判定這些數(shù)字到底有多讓人動(dòng)心!當(dāng)只有絕對(duì)數(shù)值擺在眼前的時(shí)候,問(wèn)一問(wèn)知道百分比是不是有可能幫你做出更好的判斷;當(dāng)只有百分比出現(xiàn)在眼前的時(shí)候,問(wèn)一問(wèn)是不是絕對(duì)數(shù)值會(huì)豐富它們的含義。
當(dāng)你遇到統(tǒng)計(jì)數(shù)字的時(shí)候,一定要記得問(wèn)一問(wèn):“缺少了什么相關(guān)信息?”
關(guān)于作者:
尼爾·布朗,博林格林州立大學(xué)(Bowling Green State University)的杰出經(jīng)濟(jì)學(xué)教授。獲有托雷多大學(xué)法學(xué)博士學(xué)位和得克薩斯大學(xué)的博士學(xué)位。
斯圖爾特·基利,美國(guó)伊利諾伊大學(xué)心理學(xué)博士?,F(xiàn)為美國(guó)博林格林州立大學(xué)心理學(xué)教授。