因果推斷的四個模型,的確管用!
因果關(guān)系推斷,可以說是數(shù)據(jù)分析領(lǐng)域最難的問題之一,爭吵很多年也沒有定論。經(jīng)常同學(xué)們被問到:“到底這個問題的原因是什么!”大家都會覺得分析起來很撓頭,今天我們系統(tǒng)講解下。
一、常見方法1:拆解法
最常見的用來求因果關(guān)系的方法,是拆解法。把一個結(jié)果指標(biāo),從多個角度拆解,找到影響它的原因。舉例:昨天有4個推廣渠道,一共獲客100,今天只獲客80,問為啥獲客少了。
圖片
拆解法做法(如上圖):
1、把總獲客數(shù),按四個渠道拆解,發(fā)現(xiàn)A渠道獲客最少。得到結(jié)論1:因為A渠道少了,所以總獲客少了。
2、把A渠道的獲客,按獲客流程拆解,拆解為展示頁-落地頁-轉(zhuǎn)化三步,發(fā)現(xiàn)是轉(zhuǎn)化環(huán)節(jié)少了,得到結(jié)論:因為A渠道的轉(zhuǎn)化環(huán)節(jié)出了問題,所以總獲客少了。
3、小結(jié):因為A渠道轉(zhuǎn)化環(huán)節(jié)出問題,這是獲客少的原因。
看起來回答得很完美,原因找到了!
可這種答法經(jīng)不起業(yè)務(wù)部門再問一句:那為什么A轉(zhuǎn)化差了呢?
- 我也沒改文案呀?
- 投放經(jīng)費也沒少呀?
- 前后只差1天,為啥差異這么大?
- 為啥只有A變差了,其他又不變呢?
一個都回答不上來……
所謂的拆解法,本質(zhì)上只是通過細(xì)分,鎖定了問題發(fā)生的位置。并不能找到元兇。所以常常被用來發(fā)現(xiàn)問題,而不是解釋問題(如下圖)。
圖片
二、常見方法2:相關(guān)系數(shù)法
統(tǒng)計學(xué)里有相關(guān)分析的方法。而且有個看起來很復(fù)雜公式(如下圖):
圖片
很多同學(xué)一看就來勁了!于是把兩個指標(biāo)帶進(jìn)去算相關(guān)系數(shù),而且還到處Chat GPT一下:
● 相關(guān)系數(shù)0.99算不算大
● 相關(guān)系數(shù)0.9算不算大
● 相關(guān)系數(shù)0.8算不算大
● 相關(guān)系數(shù)0.7算不算大
● 反正相關(guān)系數(shù)足夠大,就算是相關(guān)了!
這次有一個復(fù)雜的公式做支撐,應(yīng)該很科學(xué)了吧?
這么搞,很容易搞出來統(tǒng)計學(xué)領(lǐng)域經(jīng)典的“龍脈?!?/p>
1、中國GDP年年漲
2、我家門前的樹年年漲
3、把兩個數(shù)據(jù)帶進(jìn)去,算出相關(guān)系數(shù)0.99
4、所以我家門前的樹是中國的龍脈!
相關(guān)分析、回歸分析、聚類分析,本質(zhì)上不是“分析”,而是計算。通過計算,得出兩列數(shù)字或者幾列數(shù)字之間的關(guān)系。至于這個關(guān)系到底有沒有含義,計算公式本身就不負(fù)責(zé)解釋了。因此套到現(xiàn)實中經(jīng)常搞出來各種奇葩結(jié)果。
所有的統(tǒng)計學(xué)方法都有類似的問題,只能解釋數(shù)據(jù)本身的關(guān)系,解釋不了現(xiàn)實中的關(guān)系。更本質(zhì)地看:是否所有業(yè)務(wù)行為,外部因素都能量化?完全不是。比如消費者對品牌的信任,比如產(chǎn)品體驗好壞,比如文案感受,是很難量化到一個穩(wěn)定、可靠的指標(biāo)的。因此,用統(tǒng)計學(xué)方法,可以大范圍地篩選過濾指標(biāo),但是很難推理出真實因果。
圖片
三、常見方法3:趨勢分析法
既然復(fù)雜的方法不好用,有沒有簡單的辦法?有!比如基于最樸素的感覺:既然A會引發(fā)B,那么A產(chǎn)生了B就該產(chǎn)生,A結(jié)束了,B會慢慢結(jié)束(或者B死掉)。人們就此總結(jié)出了因果推斷四大原則。
四大原則:
1、原因發(fā)生在結(jié)果以前
2、原因發(fā)生以后,結(jié)果發(fā)生
3、原因持續(xù)期間,結(jié)果持續(xù)
4、原因消失以后,結(jié)果消失
這樣的推斷,符合人們的直觀邏輯。更重要的是需要的數(shù)據(jù)少!只要一個指標(biāo)走勢就能看圖說話了。所以非常好用。
圖片
BUT,這么干有個很大的問題,就是無法剔除雜糅因素,只能觀察到影響最大的那個因素。更無法看到隱藏在背后的深層因素。比如觀察外因的時候,只能觀察到天氣、限行這種明顯的因素;觀察內(nèi)因的時候,只能觀察到降價這種因素。其他小因素根本觀察不到。
因此,這種方法常常用來做排除法,剔除不合理的借口。比如:“你說天氣不好業(yè)績就不好,那為啥人家天氣差照樣有業(yè)績!”至于到底推動業(yè)績的因素是啥?不知道,還得用其他方法分析。
圖片
四、常見方法4:控制變量法
想剔除雜糅因素,最好的辦法就是分組測試,把樣本塞到密封箱子里,然后一組組地測試效果。比如我想測用戶對不同文案響應(yīng)率,理論上,我應(yīng)該用同樣的商品、價格、轉(zhuǎn)化位置,選同一批人,同一個渠道,然后可以開測了:
圖片
但是測試手段也有問題:
1、很難找到一模一樣的兩組人,完全剔除雜糅因素。
2、很難窮盡目標(biāo)用戶類型,因此測來測去可能都是同一類人的意見。
3、測試環(huán)境很難完全封閉,特別是要測試的是大促銷、新品這種熱門話題。4、很難在合法合規(guī)的情況下,完全搞差異化方案,涉嫌價格歧視與欺騙消費者,《反壟斷法》和工商局都不是吃干飯的。
5、消費者永遠(yuǎn)是趨利的,他們會自己想辦法突破測試屏蔽,最后選優(yōu)惠最大的方案。
導(dǎo)致的結(jié)果,就是這種測試,適合即時反饋的+封閉信息渠道+個性化推送的場景。是滴,就是類似打車軟件、短視頻軟件的場景。稍微反饋速度慢一點,比如電商平臺搞大數(shù)據(jù)殺熟,很容易在消費者換幾個手機號登陸比價的時候被發(fā)現(xiàn)。最后還是哪個便宜買哪個……
圖片
五、為什么常見方法不管用
綜上,我們會發(fā)現(xiàn),在因果推斷領(lǐng)域,幾乎沒有一種方法完全可靠,包括很多經(jīng)典的統(tǒng)計學(xué)方法和科學(xué)實驗方法。為什么會這樣?
因為本質(zhì)上,企業(yè)經(jīng)營是個社會科學(xué)問題,不是自然科學(xué)問題。自然科學(xué)領(lǐng)域,是有一些物理、化學(xué)、數(shù)學(xué)等基礎(chǔ)原理支撐的,這些原理是穩(wěn)定、科學(xué)、可量化的,因此可以通過數(shù)據(jù)統(tǒng)計+科學(xué)實驗,慢慢地發(fā)現(xiàn)背后的自然規(guī)律。社會科學(xué)問題完全不是這樣!社會科學(xué)問題本身就是多因素共同影響,容易被人操控改變,感性且沖動的。因此在社會科學(xué)領(lǐng)域,很難直接套用自然科學(xué)的方法解決問題。
再加上,企業(yè)里上班的人,都是有立場、有態(tài)度、有企圖的。當(dāng)他們張嘴問:“這個問題到底是因為什么產(chǎn)生的?”或者問“這個功勞到底是因為什么出來的?”的時候,他們的潛意識里裝的就是:功勞是我的,多少得蹭一點,鍋都是別人的,硬甩也得甩出去。因此即使有靠譜的方法,大家也不見得就愿意用,即使有結(jié)論,大家也會找其他理由搪塞。



































