終于有人把AB實(shí)驗(yàn)講明白了
?1.AB實(shí)驗(yàn)的定義
AB實(shí)驗(yàn)又稱為受控實(shí)驗(yàn)(Controlled Experiment)或者對(duì)照實(shí)驗(yàn)。AB實(shí)驗(yàn)的概念來(lái)自生物醫(yī)學(xué)的雙盲測(cè)試,雙盲測(cè)試中病人被隨機(jī)分成兩組,在不知情的情況下分別給予安慰劑和測(cè)試用藥,經(jīng)過(guò)一段時(shí)間的實(shí)驗(yàn)后,比較這兩組病人的表現(xiàn)是否具有顯著的差異,從而確定測(cè)試用藥是否有效。
2000年,Google工程師將這一方法應(yīng)用在互聯(lián)網(wǎng)產(chǎn)品測(cè)試中,此后AB實(shí)驗(yàn)變得越來(lái)越重要,逐漸成為互聯(lián)網(wǎng)產(chǎn)品運(yùn)營(yíng)迭代科學(xué)化、數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)的重要手段。
從國(guó)外的Apple、Airbnb、Amazon、Facebook、Google、LinkedIn、Microsoft、Uber等公司,到國(guó)內(nèi)的百度、阿里、騰訊、滴滴、字節(jié)跳動(dòng)、美團(tuán)等公司,在各種終端(網(wǎng)站、PC應(yīng)用程序、移動(dòng)應(yīng)用程序、電子郵件等)上運(yùn)行著大量的AB實(shí)驗(yàn)。
這些公司每年進(jìn)行數(shù)千到數(shù)萬(wàn)次實(shí)驗(yàn),涉及上億的用戶,測(cè)試內(nèi)容涵蓋了絕大多數(shù)產(chǎn)品特征的優(yōu)化,包括用戶體驗(yàn)(顏色、字體和交互等)、算法優(yōu)化(搜索、廣告、個(gè)性化、推薦等)、產(chǎn)品性能(響應(yīng)速度、吞吐量、穩(wěn)定性、延遲)、內(nèi)容(商品、資訊、服務(wù))生態(tài)管理系統(tǒng)、商業(yè)化收入等。
因?yàn)锳B實(shí)驗(yàn)被引入互聯(lián)網(wǎng)公司后,應(yīng)用場(chǎng)景主要是大規(guī)模的在線測(cè)試,所以也被稱作在線AB實(shí)驗(yàn)或者在線對(duì)照實(shí)驗(yàn)(Online Controlled Experiment,OCE)。
常見的在線AB實(shí)驗(yàn)中,用戶被隨機(jī)、均勻地分為不同的組,同一組內(nèi)的用戶在實(shí)驗(yàn)期間使用相同的策略,不同組的用戶使用相同或不同的策略。
同時(shí),日志系統(tǒng)根據(jù)實(shí)驗(yàn)系統(tǒng)為用戶打標(biāo)記,用于記錄用戶的行為,然后數(shù)據(jù)計(jì)算系統(tǒng)根據(jù)帶有實(shí)驗(yàn)標(biāo)記的日志計(jì)算用戶的各種實(shí)驗(yàn)數(shù)據(jù)指標(biāo)。實(shí)驗(yàn)者通過(guò)這些指標(biāo)去理解和分析不同的策略對(duì)用戶起了什么樣的作用,是否符合實(shí)驗(yàn)預(yù)先的假設(shè)。如圖1-1所示,圖中流程概括了AB實(shí)驗(yàn)的經(jīng)典模式。

▲圖1-1 AB實(shí)驗(yàn)流程
將圖1-1所示的流程應(yīng)用到產(chǎn)品迭代中,就是將具有不同功能、不同策略的產(chǎn)品版本,在同一時(shí)間,分別讓兩個(gè)或多個(gè)用戶組訪問(wèn)。這些參與實(shí)驗(yàn)的用戶組是從總體用戶中隨機(jī)抽樣出來(lái)的,一般只占總體用戶的一小部分,而且不同組用戶的屬性、構(gòu)成成分是相同或相似的。
先通過(guò)日志系統(tǒng)、業(yè)務(wù)系統(tǒng)收集各組用戶的行為數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),然后基于這些數(shù)據(jù)指標(biāo)分析、評(píng)估出相比之下更好的產(chǎn)品版本,最后推廣到全部用戶。
以圖1-2為例,我們?cè)噲D通過(guò)AB實(shí)驗(yàn)找出哪個(gè)顏色的橫幅位點(diǎn)擊率更高:A組保持淺色橫幅不變,B組采用深色的橫幅,分析哪個(gè)顏色更能引起用戶的關(guān)注,提升用戶的點(diǎn)擊率。如果通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)深色橫幅的點(diǎn)擊率更高,就將深色橫幅位推廣到全部用戶。
當(dāng)然,在實(shí)際應(yīng)用中,AB實(shí)驗(yàn)的效果評(píng)估一般沒(méi)有這么簡(jiǎn)單,比如除了點(diǎn)擊率之外,還需要綜合考慮其他的指標(biāo)。

▲圖1-2 AB實(shí)驗(yàn)測(cè)試哪個(gè)顏色橫幅位點(diǎn)擊率更高
2.AB實(shí)驗(yàn)的類型
從不同分類視角來(lái)看,AB實(shí)驗(yàn)有著不同的類型。
- 從實(shí)驗(yàn)實(shí)施的產(chǎn)品形態(tài)來(lái)看,AB實(shí)驗(yàn)可以分為App類型、PC類型、網(wǎng)頁(yè)頁(yè)面類型等。
- 從實(shí)驗(yàn)代碼運(yùn)行的機(jī)制來(lái)看,AB實(shí)驗(yàn)可以分為前端頁(yè)面類型、后端服務(wù)類型等。
- 從實(shí)驗(yàn)分流的對(duì)象來(lái)看,AB實(shí)驗(yàn)可以分為用戶類型、會(huì)話類型、頁(yè)面類型、元素類型等。
- 從實(shí)驗(yàn)服務(wù)調(diào)用的方式來(lái)看,AB實(shí)驗(yàn)可以分為SDK類型、接口服務(wù)類型等。
- 從實(shí)驗(yàn)內(nèi)容來(lái)看,AB實(shí)驗(yàn)可以分為交互類、算法類、內(nèi)容類、工程性能類等。
這些是AB實(shí)驗(yàn)常見的分類方式。當(dāng)然,AB實(shí)驗(yàn)的分類不局限于以上分類,可以根據(jù)實(shí)際情況,采用不同的分類方式。不管何種類型的AB實(shí)驗(yàn),都應(yīng)符合分流→實(shí)驗(yàn)→數(shù)據(jù)分析→決策的基本流程。
本文摘編自《AB實(shí)驗(yàn):科學(xué)歸因與增長(zhǎng)的利器》(ISBN:978-7-111-70713-4),經(jīng)出版方授權(quán)發(fā)布。?


























