一文看懂“AB實(shí)驗(yàn)”:統(tǒng)計(jì)學(xué)原理,分析思路,業(yè)務(wù)應(yīng)用
AB實(shí)驗(yàn)(ABtest)是一個(gè)經(jīng)常被提起,但是很多同學(xué)聽(tīng)得云里霧里的東西。因?yàn)榫W(wǎng)上太多文章都在講統(tǒng)計(jì)學(xué)公式,但:
1、為什么非得是AB實(shí)驗(yàn)?
2、到底AB實(shí)驗(yàn)該怎么設(shè)計(jì)?
3、到底業(yè)務(wù)該怎么用?
網(wǎng)上的案例非常少。今天一文跟大家講清,包教包會(huì)!
一、AB實(shí)驗(yàn)的原理
之所以做AB實(shí)驗(yàn),是因?yàn)椋河绊懡Y(jié)果的因素很多,我們想剔除其他因素的干擾,只看我們關(guān)心的。比如用戶的消費(fèi)率,可能受:
1)業(yè)務(wù)派發(fā)的優(yōu)惠券
2)用戶自身需求
3)特定的商品
的影響,我們想剔除X2,X3,只看業(yè)務(wù)發(fā)券對(duì)用戶消費(fèi)率的影響,此時(shí)就得做實(shí)驗(yàn)。
在統(tǒng)計(jì)學(xué)上,有兩種常用方法剔除干擾:
方法一,隨機(jī)實(shí)驗(yàn):隨機(jī)分成兩組,一組有作用,一組沒(méi)有,組間對(duì)比。充分的隨機(jī)性,能消除一切干擾因素!因此,隨機(jī)實(shí)驗(yàn)被稱為“因果推斷的黃金法則!”
方法二,找特征相似的個(gè)體作對(duì)比,所謂分組法,PSM,DID,RDD都是此原理。
這里可能有人疑惑:為什么僅靠隨機(jī)分組,就能消除所有因素影響?統(tǒng)計(jì)學(xué)上有一個(gè)經(jīng)典的種豆子故事(如下圖)簡(jiǎn)單來(lái)說(shuō):隨機(jī)分組,構(gòu)造了一個(gè)“平行世界的你”實(shí)現(xiàn)了相似特征對(duì)比。
圖片
二、AB實(shí)驗(yàn)的設(shè)計(jì)
AB實(shí)驗(yàn)設(shè)計(jì),包括五個(gè)步驟
1、業(yè)務(wù)提出行動(dòng)目標(biāo)(改善XXX指標(biāo))
2、業(yè)務(wù)提出行動(dòng)方案(頁(yè)面改版/派優(yōu)惠券)
3、根據(jù)業(yè)務(wù)方案,抽取部分用戶進(jìn)行隨機(jī)分組
4、推送業(yè)務(wù)方案,收集用戶響應(yīng)的數(shù)據(jù)
5、利用統(tǒng)計(jì)學(xué)知識(shí),對(duì)比組間差異,得出結(jié)論
典型的ABtest場(chǎng)景,有以下3種,牢牢記住哦。
圖片
這里要注意,現(xiàn)在是2025年,不是所有工作都需要從0開(kāi)始做的!市面上有火山引擎(DataTester)/神策(ABtest)等工具,很多公司也有自建的ABtest平臺(tái),可以實(shí)現(xiàn)全流程配置與管理。除了數(shù)據(jù)產(chǎn)品要搞研發(fā)以外,產(chǎn)品經(jīng)理/運(yùn)營(yíng)/數(shù)據(jù)分析師的精力應(yīng)更多放在:如何設(shè)計(jì)一個(gè)靠譜的實(shí)驗(yàn)。
三、什么是靠譜的實(shí)驗(yàn)
第一:實(shí)驗(yàn)本身符合業(yè)務(wù)邏輯。
比如:
- 派優(yōu)惠券:消費(fèi)滿1萬(wàn)元,減1元
- 首頁(yè)banner,把“快來(lái)看看”改成“馬上看看”
你自己覺(jué)得這些玩意能有多大作用!
這種屎上雕花的東西,再測(cè)也測(cè)不出效果來(lái),窮折騰。
第二:用戶分組隨機(jī)性驗(yàn)證。
理論上,最好先做AA實(shí)驗(yàn)。即隨機(jī)分組后,不上線任何政策,空跑一段時(shí)間。如果分組是隨機(jī)的,那么此時(shí)組間不會(huì)出現(xiàn)任何差異。
實(shí)際上,人們經(jīng)常懶得做AA就直接上了。那么至少,分組后,組間用戶在關(guān)鍵特征(性別,年齡,收入,消費(fèi)力等)保持一致(也可以做T檢驗(yàn))。
第三:實(shí)驗(yàn)時(shí)間設(shè)計(jì),符合業(yè)務(wù)周期,避開(kāi)特殊時(shí)間段。
比如:
1、要測(cè)優(yōu)惠券,那么不要趕在618前后測(cè),618的巨大影響,會(huì)把你那點(diǎn)券沖掉的。
2、要測(cè)游戲功能,不要趕在學(xué)生快放暑假,快開(kāi)學(xué)的時(shí)候。選擇正常時(shí)間
3、要測(cè)商品詳情頁(yè),至少測(cè)夠1周(包含工作日和周末)
第四:做好多個(gè)實(shí)驗(yàn)之間的協(xié)調(diào)。
業(yè)務(wù)動(dòng)作有可能很多,多重動(dòng)作疊加很可能引發(fā)用戶體驗(yàn)下降,比如:
1、單獨(dú)上一個(gè)“猜你喜歡”,效果很好
2、單獨(dú)上一個(gè)“福利炸彈”,效果很好
3、單獨(dú)上一個(gè)“好運(yùn)降臨”,效果很好
結(jié)果實(shí)際上線,用戶打開(kāi)頁(yè)面哐哐哐彈了一堆東西,嚇得用戶趕緊關(guān)上……
綜上可見(jiàn),好的實(shí)驗(yàn),建立在充分的前期分析,對(duì)用戶和產(chǎn)品有足夠分析積累之上,不是閉著眼睛上個(gè)頁(yè)面就測(cè)了。
圖片
四、實(shí)驗(yàn)結(jié)果的解讀
AB實(shí)驗(yàn),對(duì)應(yīng)的統(tǒng)計(jì)學(xué)知識(shí)是“雙樣本T檢驗(yàn)”,而且常用的AB實(shí)驗(yàn)平臺(tái)會(huì)直接通報(bào)結(jié)果,所以直接看P值是不是小于0.05就好了。P值大于0.05說(shuō)明沒(méi)有組間差異,業(yè)務(wù)動(dòng)作做了白做,回去重做!
這里,經(jīng)常有業(yè)務(wù)部門(mén)會(huì)搬來(lái)厚厚的統(tǒng)計(jì)學(xué)書(shū),試圖證明P值大于0.05,也能說(shuō)明業(yè)務(wù)做的很好。反正業(yè)務(wù)做的不好,測(cè)到它好為止!最后結(jié)論必須是“好!”……我們常說(shuō):放過(guò)統(tǒng)計(jì)學(xué)吧,它老人家已經(jīng)300歲了,經(jīng)不起產(chǎn)品經(jīng)理和運(yùn)營(yíng)這么折騰。
反而是,很有可能出現(xiàn):明明測(cè)試看起來(lái)有效,上線沒(méi)效果,比如:
- 測(cè)的東西本身就是小因素,很快泯然眾人
- 有影響更大的其他事件發(fā)生
- 業(yè)務(wù)動(dòng)作之間相互干擾,拉低效果
- 持續(xù)動(dòng)作下,用戶需求/市場(chǎng)結(jié)構(gòu)發(fā)生變化
- 新奇效應(yīng),上線時(shí)候好玩,過(guò)兩天懶得完了
就比如給優(yōu)惠券,給太多了,用戶習(xí)慣了發(fā)券,沒(méi)券就不消費(fèi),導(dǎo)致越往后效果越差。這都是常事。
因此,AB實(shí)驗(yàn)并不是“一炮定輸贏”,緊密?chē)@業(yè)務(wù)目標(biāo),不斷尋找優(yōu)化方法,才是關(guān)鍵。而不是對(duì)著P值大喊:給我顯著!快給我顯著!
































