數(shù)據(jù)科學(xué)中的三大統(tǒng)計(jì)悖論
在任何數(shù)據(jù)科學(xué)應(yīng)用中,觀察偏差和亞組差異很容易產(chǎn)生統(tǒng)計(jì)悖論。因此,忽略這些因素會(huì)完全破壞我們的分析結(jié)論。
觀察到令人驚訝的現(xiàn)象,例如在匯總數(shù)據(jù)中完全還原的子組趨勢(shì),的確不罕見(jiàn)。在本文中,我們研究了數(shù)據(jù)科學(xué)中遇到的三種最常見(jiàn)的統(tǒng)計(jì)悖論。
1. 伯克森悖論
第一個(gè)引人注目的例子是觀察到的COVID-19嚴(yán)重程度與吸煙之間的負(fù)相關(guān)性(例如,參見(jiàn)Wenzel 2020年的歐盟委員會(huì)審查)。吸煙是呼吸系統(tǒng)疾病的眾所周知的危險(xiǎn)因素,那么我們?nèi)绾谓忉屵@種矛盾呢?
最近在《自然》雜志上發(fā)表的2020年格里菲斯(Griffith 2020)的工作表明,這可能是Collider Bias(也稱為Berkson悖論)的例子。為了理解這一悖論,讓我們考慮以下圖形模型,其中包括第三個(gè)隨機(jī)變量:“正在住院”。
第三個(gè)變量“正在住院”是前兩個(gè)變量的對(duì)撞者。這意味著吸煙和嚴(yán)重COVID-19都會(huì)增加在醫(yī)院生病的機(jī)會(huì)。當(dāng)我們以對(duì)撞機(jī)為條件時(shí),即當(dāng)我們僅觀察住院患者的數(shù)據(jù)而不考慮整個(gè)人口時(shí),伯克森悖論恰好出現(xiàn)。
讓我們考慮以下示例數(shù)據(jù)集。在左圖中,我們觀察到了整個(gè)人群,而在右圖中,我們僅考慮了一部分住院患者(即,我們以對(duì)撞機(jī)變量為條件)。
在左圖中,我們可以觀察到COVID-19嚴(yán)重程度與吸煙之間的正相關(guān)關(guān)系,因?yàn)槲覀冎牢鼰熓呛粑到y(tǒng)疾病的危險(xiǎn)因素,因此我們可以預(yù)期。
但是在正確的數(shù)字上(我們只考慮住院患者),我們看到了相反的趨勢(shì)!要理解這一點(diǎn),請(qǐng)考慮以下幾點(diǎn)。
- 嚴(yán)重程度較高的COVID-19會(huì)增加住院的機(jī)會(huì)。特別是,如果嚴(yán)重程度大于1,則需要住院治療。
- 每天抽幾支煙是多種疾病(心臟病,癌癥,糖尿病)的主要危險(xiǎn)因素,由于某種原因,這些疾病增加了住院的機(jī)會(huì)。
- 因此,如果住院患者的COVID-19嚴(yán)重程度較低,則他們吸煙的機(jī)會(huì)更高!實(shí)際上,他們必須患有與COVID-19不同的某種疾病(例如心臟病,癌癥,糖尿病)以證明其住院治療的合理性,而這種疾病很可能是由吸煙引起的。
這個(gè)例子與伯克森1946年的原始工作非常相似,作者發(fā)現(xiàn)醫(yī)院患者的膽囊炎和糖尿病之間存在負(fù)相關(guān)關(guān)系,盡管糖尿病是膽囊炎的危險(xiǎn)因素。
2. 潛在變量
潛在變量的存在還可能在兩個(gè)變量之間產(chǎn)生明顯相反的相關(guān)性。盡管伯克森的悖論是由于對(duì)撞機(jī)變量的條件而出現(xiàn)的(因此應(yīng)避免使用),但可以通過(guò)對(duì)潛變量的條件來(lái)解決另一種悖論。
例如,讓我們考慮一下?lián)錅缁馂?zāi)的消防員人數(shù)與火災(zāi)中受傷人數(shù)之間的關(guān)系。我們希望擁有更多的消防員會(huì)改善結(jié)果(在某種程度上,請(qǐng)參見(jiàn)布魯克斯定律),但是在匯總數(shù)據(jù)中卻發(fā)現(xiàn)存在正相關(guān)關(guān)系:部署的消防員越多,受傷人數(shù)越多!
為了理解這種矛盾,讓我們考慮以下圖形模型。關(guān)鍵是再次考慮第三個(gè)隨機(jī)變量:“火災(zāi)嚴(yán)重性”。
該第三潛在變量與其他兩個(gè)正相關(guān)。確實(shí),更嚴(yán)重的火災(zāi)往往會(huì)造成更多的傷害,同時(shí)又需要更多的消防員被撲滅。
讓我們考慮以下示例數(shù)據(jù)集。在左圖中,我們匯總了來(lái)自各種火災(zāi)的觀測(cè)值,而在右圖中,我們僅考慮了與三個(gè)固定程度的火災(zāi)嚴(yán)重性相對(duì)應(yīng)的觀測(cè)值(即,我們將觀測(cè)值設(shè)置為潛變量)。
在右圖中,我們根據(jù)火勢(shì)的嚴(yán)重程度對(duì)觀測(cè)值進(jìn)行了條件調(diào)整,可以看到我們期望的負(fù)相關(guān)。
- 對(duì)于給定的嚴(yán)重程度的火災(zāi),我們確實(shí)可以觀察到,消防員部署的越多,受傷的人就越少。
- 如果我們著眼于嚴(yán)重程度較高的火災(zāi),即使部署的消防員人數(shù)和受傷人數(shù)都較高,我們也會(huì)觀察到相同的趨勢(shì)。
3. 辛普森悖論
當(dāng)在子組中始終觀察到趨勢(shì)時(shí)出現(xiàn)辛普森悖論,這是一個(gè)令人驚訝的現(xiàn)象,但是如果合并子組,則趨勢(shì)會(huì)反轉(zhuǎn)。它通常與數(shù)據(jù)子組中的類不平衡有關(guān)。
這個(gè)悖論的一個(gè)臭名昭著的發(fā)生是在比克爾(Bickel)1975年進(jìn)行的,當(dāng)時(shí)對(duì)加利福尼亞大學(xué)的錄取率進(jìn)行了分析,以發(fā)現(xiàn)性別歧視的證據(jù),并揭示了兩個(gè)明顯矛盾的事實(shí)。
- 一方面,他觀察到每個(gè)部門(mén)的女性申請(qǐng)人的錄取率均高于男性申請(qǐng)人。
- 另一方面,總數(shù)表明,女性申請(qǐng)人的錄取率低于男性申請(qǐng)人。
為了了解如何做到這一點(diǎn),讓我們考慮以下兩個(gè)A部門(mén)和B部門(mén)的數(shù)據(jù)集。
- 在100名男性申請(qǐng)人中:接受了A部門(mén)申請(qǐng)的80名和68名(85%),而接受B部門(mén)申請(qǐng)的20名和12名(60%)被接受。
- 在100名女性申請(qǐng)人中:接受了A部門(mén)申請(qǐng)的30名和28名(93%),而接受B部門(mén)申請(qǐng)的70名和46名(66%)被接受。
悖論由以下不等式表示。
現(xiàn)在,我們可以了解我們看似矛盾的觀察的起源了。關(guān)鍵是在兩個(gè)部門(mén)中,每個(gè)部門(mén)的申請(qǐng)者的性別存在嚴(yán)重的失衡(部門(mén)A:80–30,部門(mén)B:20–70)。確實(shí),大多數(shù)女學(xué)生申請(qǐng)了競(jìng)爭(zhēng)更激烈的B部門(mén)(錄取率較低),而大多數(shù)男學(xué)生則申請(qǐng)了競(jìng)爭(zhēng)較弱的A部門(mén)(錄取率較高)。這導(dǎo)致了我們的矛盾觀察。
結(jié)論
潛在變量,對(duì)撞機(jī)變量和類不平衡會(huì)在許多數(shù)據(jù)科學(xué)應(yīng)用程序中輕易產(chǎn)生統(tǒng)計(jì)悖論。因此,必須特別注意這些關(guān)鍵點(diǎn),以正確得出趨勢(shì)并分析結(jié)果。
原文鏈接:https://towardsdatascience.com/top-3-statistical-paradoxes-in-data-science-e2dc37535d99





























