偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

貝葉斯結(jié)構(gòu)模型在全量營銷效果評估的應(yīng)用

作者：Yiwen 2023-09-12 11:36:15

人工智能新聞

本文主要介紹BSTS模型原理以及CausalImpact對模型的代碼實現(xiàn)，旨在面對一些具有特定周期性特點的數(shù)據(jù)時，更精準(zhǔn)科學(xué)地進(jìn)行因果效應(yīng)值的估計。

作者簡介

Yiwen，攜程數(shù)據(jù)分析師，專注用戶增長、因果推斷、數(shù)據(jù)科學(xué)等領(lǐng)域。

一、背景

如何科學(xué)地推斷某個產(chǎn)品策略對觀測指標(biāo)產(chǎn)生的效應(yīng)非常重要，這能夠幫助產(chǎn)品和運營更精準(zhǔn)地得到該策略的價值，從而進(jìn)行后續(xù)方向的迭代及調(diào)整。

在因果推斷框架下，效果評估的黃金準(zhǔn)則一定是“AB實驗”，因為實驗的分流被認(rèn)為是完全隨機且均勻的，在此基礎(chǔ)上對比實驗組與對照組的指標(biāo)差異就可以體現(xiàn)某個干預(yù)帶來的增量值。但是很多場景下，我們較難進(jìn)行嚴(yán)格的AB實驗，例如對于酒店的定價；現(xiàn)金獎勵的發(fā)放等等，不適宜向不同人群展現(xiàn)不同的內(nèi)容。對于這些問題，我們會采取因果推斷的方法來進(jìn)行策略的效果評估。

本文主要介紹BSTS模型原理以及CausalImpact對模型的代碼實現(xiàn)，旨在面對一些具有特定周期性特點的數(shù)據(jù)時，更精準(zhǔn)科學(xué)地進(jìn)行因果效應(yīng)值的估計。下文將首先對模型原理進(jìn)行簡要闡釋；隨后利用模擬數(shù)據(jù)展示代碼邏輯，最后在具體的業(yè)務(wù)場景中進(jìn)行實踐。

二、現(xiàn)有方法及潛在問題

大部分運營和產(chǎn)品在評估一些全量上線的策略效果時，最常用的方式就是看上線前后的效果差異。但這種方法最大的問題在于其假設(shè)前提：假設(shè)上線的功能是唯一影響效果的變量（即沒有任何其他干預(yù)和混淆變量），但這個假設(shè)現(xiàn)實中往往很難實現(xiàn)。

于是我們嘗試使用更多因果推斷的方法，例如PSM（傾向分匹配法），在所有非實驗組的用戶群中，找到與實驗組用戶的特征非常相似的一群人，將他們的指標(biāo)數(shù)據(jù)（例如下單率，訂單收益等等）與實驗組的用戶進(jìn)行對比，從而體現(xiàn)出干預(yù)帶來的影響。但這個方法較為依賴選取的用戶特征與最后的匹配效果。

再例如SCM（合成控制方法），利用一些未受干預(yù)的地區(qū)合成一個“類似的虛擬地區(qū)”來與“上線策略的地區(qū)”進(jìn)行整體的對比。但這也需要一個關(guān)鍵假設(shè)：可以找到長期變化趨勢高度同步的地區(qū)來進(jìn)行對照，而這個條件往往也很難實現(xiàn)。

進(jìn)而在傳統(tǒng)SCM的基礎(chǔ)上，我們企圖通過類似集成學(xué)習(xí)的方法，將多個未干預(yù)的對照組作為輸入值，再結(jié)合實驗組自身長期的時間序列波動情況，擬合出一個未受干預(yù)的虛擬對照組，從而將“對照組與實驗組高度同步”的強假設(shè)降為弱假設(shè)。本文介紹的BSTS模型就是用來刻畫某種“長期的時間序列波動”的數(shù)據(jù)模型，CausalImpact是用來針對這樣的數(shù)據(jù)進(jìn)行因果效應(yīng)值的估計。下文中我們將詳細(xì)介紹這兩個工具。

三、模型介紹

BSTS模型（Bayesian Structured Time Series）稱為“貝葉斯結(jié)構(gòu)化時間序列”，正如其名，它的主要特點體現(xiàn)在：

適用于有結(jié)構(gòu)特征的時間序列數(shù)據(jù)
利用貝葉斯的思想來進(jìn)行參數(shù)估計

結(jié)構(gòu)化的時間序列數(shù)據(jù)在日常生活中不少見，尤其像攜程這樣的OTA行業(yè)，平臺的訂單情況其實是有一定時間規(guī)律的，例如周末和節(jié)假日是訂單高峰期；周中是訂單平峰期等。另一方面，貝葉斯的思想是指在得到樣本數(shù)據(jù)之前，即對要估計的參數(shù)有一些“先天認(rèn)知”），隨后基于這樣的認(rèn)知，結(jié)合樣本數(shù)據(jù)再得到后驗分布（如下方公式展示）

故BSTS模型主要即對結(jié)構(gòu)化時序數(shù)據(jù)進(jìn)行模型擬合及預(yù)測，在擬合的過程中使用到了貝葉斯的先驗思想。其好處是能夠給出預(yù)測值的置信區(qū)間，使得預(yù)測結(jié)果更科學(xué)可信。下文將對這幾種思想逐一進(jìn)行介紹。

3.1 狀態(tài)空間模型

結(jié)構(gòu)化的時間序列數(shù)據(jù)是指某一觀測數(shù)據(jù)的背后其實隱藏著隨時間變化而變化的不同狀態(tài)，其中觀測值與狀態(tài)值之間有對應(yīng)關(guān)系；不同時刻的狀態(tài)之間也有轉(zhuǎn)換關(guān)系。我們一般用以下狀態(tài)空間模型來刻畫這兩種映射邏輯：

(1) 稱為觀測方程，反映觀測值與其背后隱藏狀態(tài)的關(guān)系；(2) 稱為狀態(tài)方程，反映隨時間推移各個狀態(tài)之間的轉(zhuǎn)換。；都是不同變量之間的“關(guān)系映射矩陣”；是獨立于其他變量且服從正態(tài)分布的噪聲。所謂數(shù)據(jù)的“結(jié)構(gòu)化”，主要包括：

Linear Local Trend（局部趨勢）：一定時間內(nèi)的單調(diào)性（單調(diào)上升或下降）
Seasonality（季節(jié)性因子）：固定長度的變化，類似于一年四季的溫度變化
Cyclical（周期性）：類似季節(jié)性但波動時間不固定，波動頻率也不固定的變化

圖3-1：觀測數(shù)據(jù)及其結(jié)構(gòu)化元素。第一張圖體現(xiàn)原數(shù)據(jù)的波動情況；第二張體現(xiàn)季節(jié)性因子的情況；第三張圖體現(xiàn)局部趨勢的情況。

如果希望在映射關(guān)系中加入?yún)f(xié)變量X，可以將(1)拓展為：

其中表示協(xié)變量X與觀測數(shù)據(jù)之間的關(guān)系，如果協(xié)變量項表現(xiàn)很好（如有顯著影響）的話，那對應(yīng)的local trend就會相對較弱。上述三個方程中的參數(shù)將在后文中展示估計方式。

3.2 貝葉斯及MCMC（馬爾可夫蒙特卡洛方法）

假設(shè)狀態(tài)方程(2)中各個時刻的狀態(tài)序列為表示模型中所有的參數(shù)。我們現(xiàn)在希望對θ進(jìn)行估計，核心步驟如下：

對θ設(shè)置先驗分布以及初始狀態(tài)的分布
構(gòu)造馬爾科夫鏈，用MCMC方法得到
通過貝葉斯公式計算得到參數(shù)的后驗分布

下面對于各個步驟中用到的方法進(jìn)行簡要說明：

1）貝葉斯估計：BSTS模型的一大特點就是在參數(shù)估計上使用了貝葉斯估計，即在估計之前先給出參數(shù)設(shè)置先驗分布，隨后再結(jié)合樣本數(shù)據(jù)給出參數(shù)的后驗分布。不同類型的參數(shù)一般有一些常用的先驗分布，例如均值一般使用正態(tài)分布，，方差使用inverse-Gamma分布，協(xié)方差矩陣可以使用IW分布等等。值得注意的是，先驗分布的設(shè)置一定程度上會影響后續(xù)MCMC收斂的情況以及后驗分布的準(zhǔn)確性，因此并不能太過隨意地設(shè)置先驗分布，應(yīng)盡可能多地根據(jù)實際數(shù)據(jù)推導(dǎo)出最合適的先驗分布，或是比較各先驗分布下后驗分布和似然函數(shù)的值來進(jìn)行選擇。

2）MCMC方法：我們嘗試構(gòu)造一條馬爾可夫鏈（一種特殊的序列，當(dāng)前時刻的狀態(tài)值僅與前一時刻的狀態(tài)值有關(guān)，最終序列會收斂到某個穩(wěn)定的分布），使得其最終收斂的穩(wěn)態(tài)分布就是參數(shù)的后驗分布。這一過程我們可以通過Gibbs采樣實現(xiàn)：設(shè)置先驗分布之后，從初始狀態(tài)出發(fā)，每次固定α采樣θ；再固定θ采樣α，逐漸一次次更新兩組參數(shù)，最終形成一條服從馬爾可夫性質(zhì)的鏈路，可以證明其穩(wěn)態(tài)收斂的分布就是，其中代表所有的觀測數(shù)據(jù)。

3）預(yù)測值估計：得到之后，我們從該分布中對（α，θ）進(jìn)行采樣，再代入狀態(tài)空間方程(1)中對y進(jìn)行預(yù)測，得到，其中表示時間點n之后y的預(yù)測值。

圖3-2：展示某結(jié)構(gòu)化時序數(shù)據(jù)及其背后各個狀態(tài)轉(zhuǎn)換的過程。狀態(tài)α 包含 Local trend:（局部趨勢); local level:(局部趨勢的均值) 以及協(xié)變量x,表示所有的觀測數(shù)據(jù);表示根據(jù)狀態(tài)模型得到的預(yù)測數(shù)據(jù)。分別表示的標(biāo)準(zhǔn)差這些參數(shù)均通過MCMC的方式得到估計。

四、模型應(yīng)用與代碼實現(xiàn)

以上我們給出了BSTS模型及MCMC方法的簡要理論推導(dǎo)及結(jié)果輸出，核心目的就是對觀測值y做出預(yù)測。接下來我們將介紹如何在因果推斷場景中應(yīng)用BSTS模型。

在對政策的效果評估上，我們核心想要的是觀測對象“反事實值”，例如“如果沒有這個廣告投放，用戶的瀏覽情況會怎樣？”相較于傳統(tǒng)的PSM或SCM方法，BSTS勝在其能夠?qū)τ跁r間序列數(shù)據(jù)進(jìn)行效果評估；同時利用貝葉斯估計輸出反事實值y的預(yù)測，并給出預(yù)測值的置信區(qū)間，能一定程度上降低反事實值預(yù)測的波動性，提升效應(yīng)評估的準(zhǔn)確性與穩(wěn)定性。

在實踐應(yīng)用上，可以通過谷歌開源的CausalImpact包來實現(xiàn)BSTS模型，在Python和R中均可調(diào)用，具體代碼實現(xiàn)詳見參考文獻(xiàn)[7][8]。

圖4-1：展示執(zhí)行代碼時的三個步驟：訓(xùn)練BSTS模型；反事實值預(yù)測；計算因果效應(yīng)值，包括效應(yīng)值的點估計及置信區(qū)間。

4.1 代碼實現(xiàn)

下面通過模擬數(shù)據(jù)展示代碼的具體命令

import tensorflow as tf
import tensorflow_probability as tfp
from causalimpact import CausalImpact
# 模型初始化 - 自定義時間序列數(shù)據(jù)：
def plot_time_series_components(ci):
     component_dists = tfp.sts.decompose_by_component(ci.model, ci.observed_time_series, ci.model_samples)
       num_components = len(component_dists)
mu, sig = ci.mu_sig if ci.mu_sig is not None else 0.0, 1.0
for i, (component, component_dist) in enumerate(component_dists.items()):
         component_mean = component_dist.mean().numpy()
         component_stddev = component_dist.stddev().numpy()
# 自定義觀測方程以及真實值y：
def plot_forecast_components(ci):
         component_forecasts = tfp.sts.decompose_forecast_by_component(ci.model, ci.posterior_dist, ci.model_samples)
       num_components = len(component_forecasts)
       mu, sig = ci.mu_sig if ci.mu_sig is not None else 0.0, 1.0
       for i, (component, component_dist) in enumerate(component_forecasts.items()):
          component_mean = component_dist.mean().numpy()
          component_stddev = component_dist.stddev().numpy()
# 生成模擬數(shù)據(jù)，包括一個實驗組數(shù)據(jù)（有干預(yù)）以及兩條對照組數(shù)據(jù)（無干預(yù)）
observed_stddev, observed_initial = (tf.convert_to_tensor(value=1, dtype=tf.float32),tf.convert_to_tensor(value=0., dtype=tf.float32))
level_scale_prior = tfd.LogNormal(loc=tf.math.log(0.05 * observed_stddev), scale=1, name='level_scale_prior')  # 設(shè)置先驗分布
initial_state_prior = tfd.MultivariateNormalDiag(loc=observed_initial[..., tf.newaxis], scale_diag=(tf.abs(observed_initial) + observed_stddev)[..., tf.newaxis], name='initial_level_prior')  # 設(shè)置先驗分布 
ll_ssm = tfp.sts.LocalLevelStateSpaceModel(100, initial_state_prior=initial_state_prior,  level_scale=level_scale_prior.sample())  #訓(xùn)練時序模型
ll_ssm_sample = np.squeeze(ll_ssm.sample().numpy())
# 整合數(shù)據(jù)
x0 = 100 * np.random.rand(100)    # 對照組1
x1 = 90 * np.random.rand(100)     # 對照組2
y = 1.2 * x0 + 0.9 * x1 + ll_ssm_sample    #生成真實值y
y[70:] += 10     #設(shè)置干預(yù)點
data = pd.DataFrame({'x0': x0, 'x1': x1, 'y': y}, columns=['y', 'x0', 'x1'])

圖4-2：展示模擬數(shù)據(jù)。虛線表示干預(yù)發(fā)生的時間點，藍(lán)線表示受到干預(yù)的觀測數(shù)據(jù)；黃線與綠線表示沒有受到干預(yù)的兩組對照數(shù)據(jù)。

# 調(diào)用模型：
pre_period = [0, 69]    #設(shè)置干預(yù)前的時間窗口
post_period = [70, 99]  #干預(yù)后的窗口
ci = CausalImpact(data, pre_period, post_period)  #調(diào)用CausalImpact
# 對于causalImpact的使用我們核心需要填寫三個參數(shù)：觀測數(shù)據(jù)data、干預(yù)前的時間窗口、干預(yù)后的時間窗口。
# 輸出結(jié)果：
ci.plot()
ci.summary()圖4-3：展示CausalImpact輸出的結(jié)果圖，圖1表示真實值與模型擬合值的曲線；圖2表示每個時刻真實值與預(yù)測值的差異；圖3表示真實值與預(yù)測值的累計差值。表3-1：展示CausalImpact輸出的結(jié)果表格，量化效應(yīng)值effect的估計及其置信區(qū)間，反映效應(yīng)值是否具有顯著性。107.71表示干預(yù)之后實際值的平均；96.25表示干預(yù)之后預(yù)測值的平均，3.28表示估計的標(biāo)準(zhǔn)差，[89.77,102.64]表示反事實估計的置信區(qū)間。11.46表示實際值與預(yù)測值的差距，[5.07,17.94]表示差值的置信區(qū)間，由于差距的置信區(qū)間在0的右側(cè)，表示干預(yù)有顯著的提升作用。

圖4-3：展示CausalImpact輸出的結(jié)果圖，圖1表示真實值與模型擬合值的曲線；圖2表示每個時刻真實值與預(yù)測值的差異，橙色陰影部分表示置信區(qū)間；圖3表示真實值與預(yù)測值的累計差值。

表3-1：展示CausalImpact輸出的結(jié)果表格，量化效應(yīng)值effect的估計及其置信區(qū)間，反映效應(yīng)值是否具有顯著性。107.71表示干預(yù)之后實際值的平均；96.25表示干預(yù)之后預(yù)測值的平均，3.28表示估計的標(biāo)準(zhǔn)差，[89.77,102.64]表示反事實估計的置信區(qū)間。11.46表示實際值與預(yù)測值的差距，[5.07,17.94]表示差值的置信區(qū)間，由于差距的置信區(qū)間在0的右側(cè)，表示干預(yù)有顯著的提升作用。

4.2 模型校驗

對于模型擬合的結(jié)果，我們需要進(jìn)行類似AB實驗的“AA校驗”。一般可以通過圖示的結(jié)果中的第二張圖，觀察干預(yù)之前真實值與預(yù)測值差值的置信區(qū)間是否包含0，如果包含0則說明通過檢驗，模型擬合效果不錯。上圖中，置信區(qū)間均含0，說明模型可用。

4.3 模型調(diào)整

過程參數(shù)：我們可以使用Tensorflow中的Decomposition來查看時序模型中各個結(jié)構(gòu)元素，包括周期性/季節(jié)性等等。

seasonal_decompose(data)

圖4-4展示了生成數(shù)據(jù)背后的狀態(tài)元素。第一張圖反映原數(shù)據(jù)的走勢；第二張圖反映局部趨勢因子；第三張圖反映季節(jié)性因子?？梢钥闯鰯?shù)據(jù)存在季節(jié)性結(jié)構(gòu)且呈單調(diào)上升趨勢。

自定義參數(shù)：我們可以自定義參數(shù)的先驗分布；迭代次數(shù)；周期性的時間窗口長度等等。往往參數(shù)調(diào)整會對結(jié)果輸出有影響，例如正確的選取先驗分布會讓結(jié)果更準(zhǔn)確；迭代次數(shù)更多能保證MCMC收斂更穩(wěn)定（但也可能導(dǎo)致模型運行時間較長）等等。其中最重要的是對時間窗口長度的設(shè)置，需要正確地反映觀測數(shù)據(jù)的周期性。如果是年維度數(shù)據(jù)以星期為周期則設(shè)置neasnotallow=52；如果是天維度數(shù)據(jù)以小時為周期則設(shè)置neasnotallow=24等等。

CausalImpact(...,  model.args = list(niter = 20000, nseasons = 24))

圖4-5展示CausalImpact包中各個參數(shù)含義及其默認(rèn)值。

自定義時序模型：causalImpact的包中默認(rèn)使用BSTS模型進(jìn)行訓(xùn)練，我們也可以改為其他的時序模型，但前提是需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。（如果使用默認(rèn)的BSTS則不一定需要標(biāo)準(zhǔn)化）

from causalimpact.misc import standardize
normed_data, _ = standardize(data.astype(np.float32)) #標(biāo)準(zhǔn)化數(shù)據(jù)
obs_data = normed_data.iloc[:70, 0]
# 使用tfp中的其他模型來訓(xùn)練時序數(shù)據(jù)
linear_level = tfp.sts.LocalLinearTrend(observed_time_series=obs_data)
linear_reg = tfp.sts.LinearRegression(design_matrix=normed_data.iloc[:, 1:].values.reshape(-1, normed_data.shape[1] -1))
model = tfp.sts.Sum([linear_level, linear_reg], observed_time_series=obs_data)
# 將自義定時序模型代入CausalImpact包中
ci = CausalImpact(data, pre_period, post_period, model=model)

五、業(yè)務(wù)場景實踐

用戶營銷是促進(jìn)留存及轉(zhuǎn)化的重要方式，其中對用戶進(jìn)行消息觸達(dá)是一大核心手段，尤其是在節(jié)假日的購票高峰期對用戶進(jìn)行推送，方式包括站內(nèi)push；微信生態(tài)中的小程序訂閱消息；公眾號或是企微環(huán)境等等，目的包括但不限于提醒用戶購票；宣傳品牌功能；發(fā)放優(yōu)惠券吸引用戶轉(zhuǎn)化等等。在節(jié)假日之后，我們希望對這次的營銷觸達(dá)進(jìn)行效果評估。

這是一個較為典型的不適合進(jìn)行AB實驗的場景，首先因為節(jié)假日是流量高峰時期，如果嚴(yán)格預(yù)留50%用戶不觸達(dá)，可能會損失一批潛在的轉(zhuǎn)化用戶；如果改將對照組預(yù)留很少的人數(shù)，例如對照組：實驗組=1:9，那對于后續(xù)的轉(zhuǎn)化對比的科學(xué)性會產(chǎn)生影響。其次，節(jié)假日的推送策略往往非常精細(xì)化，總量達(dá)幾十條，我們較難保證對照組用戶的“純粹性”，用戶可能會被交叉觸達(dá)。

基于種種問題，我們較難通過傳統(tǒng)AB 的手段來評估推送帶來的轉(zhuǎn)化效果。因此我們考慮使用因果推斷的方式來解決。常規(guī)可選的方法和潛在問題如下：

如果使用PSM，需要在大盤中尋找與推送人群相似但是沒有被推送的用戶作為對照組。但一般節(jié)假日推送時都會有兜底策略，幾乎覆蓋了95%以上的平臺用戶，較難從中找到符合條件但未被推送的人群來進(jìn)行對照。
如果使用SCM，我們較難找到合適的對照組來合成。如評估度假BU的推送效果時，我們不太可能用火車、機票、酒店等各個產(chǎn)線合成一個“虛擬度假BU”，因為本身各個產(chǎn)線的用戶需求就不同，使用這樣合成的虛擬對照組來對比度假訂單的轉(zhuǎn)化率是不夠科學(xué)的。
DID的方式也同理，我們很難找到一個滿足平行趨勢假設(shè)且業(yè)務(wù)場景相似的對照組來進(jìn)行推送前后的對比。

綜上所述，一些傳統(tǒng)的因果推斷方法縱使在技術(shù)上可行，在業(yè)務(wù)的解釋性上也有所欠缺。而且，以上三種方式都沒有考慮到用戶購票行為的“時間周期性”。因此即使合成了對照組也不一定能夠匹配到實驗組真正的結(jié)構(gòu)特點，進(jìn)而導(dǎo)致效應(yīng)值計算有偏。于是我們考慮首先驗證用戶購票的數(shù)據(jù)周期性；在定位到周期規(guī)律之后嘗試使用BSTS模型結(jié)合CausalImpact來進(jìn)行反事實值的預(yù)測。下文我們選擇2022年端午的火車票營銷推送場景進(jìn)行實踐。

圖5-1展示端午期間對于用戶進(jìn)行不同策略的推送觸達(dá)。

5.1 數(shù)據(jù)選取

我們以小時為周期窗口，通過簡單的圖像能夠看出大盤的火車票下單人數(shù)確實隨著時間推移呈現(xiàn)某種固定趨勢。

圖5-2展示選取端午周期內(nèi)（正端午前后10天）每小時的火車票大盤支付人數(shù)

考慮到端午作為節(jié)假日本身就有的自然流量增長，支付人數(shù)的提升不能完全歸因于推送帶來的，因此訓(xùn)練時序模型的時候，選取了19年-21年所有的端午數(shù)據(jù)（正端午前后10天）輸入BSTS模型進(jìn)行訓(xùn)練，得到端午這個窗口內(nèi)的特有的結(jié)構(gòu)狀態(tài)，隨后用這個結(jié)構(gòu)化的模型來代入22年的端午數(shù)據(jù)，對2022年端午推送之后的轉(zhuǎn)化人數(shù)做出預(yù)測。
最后使用真實的轉(zhuǎn)化人數(shù)與預(yù)測人數(shù)作差體現(xiàn)本次營銷推送的效果。

5.2 R-代碼實現(xiàn)

# 選取19-22年每年的端午窗口，按照小時劃分，共960個數(shù)據(jù)點
y_hour=c(x1,x2,x3,x4)
x_time_hour=c(1:960)
data_hour <- cbind(y_hour, x_time_hour)
pre.period <- c(1, 808)   # 2022年的推送發(fā)生在第808個時間點，故以此為干預(yù)節(jié)點。
post.period <- c(809, 960)
# nseasnotallow=24, 迭代次數(shù)2000，fit the model
impact_hour <- CausalImpact(data_hour, pre.period, post.period, model.args = list(niter = 20000, nseasons = 24))
summary(impact_hour)
plot(impact_hour)

圖5-3展示使用CausalImpact返回的結(jié)果圖。第一張圖表示真實支付人數(shù)與預(yù)測支付人數(shù)；第二張圖表示真實值與預(yù)測值的差值及置信區(qū)間；第三張圖是累計差值和置信區(qū)間。

圖像顯示模型能夠通過 AA校驗，模型有效。在干預(yù)點之后，實際值較預(yù)測值有所提升，但提升的置信區(qū)間含0，因此未達(dá)到顯著程度。體現(xiàn)出2022年端午營銷策略對于轉(zhuǎn)化人數(shù)有所促進(jìn)作用，但是效果未達(dá)顯著。

六、方法優(yōu)缺點

相較于傳統(tǒng)因果推斷方法，BSTS模型有2個主要優(yōu)點：

能夠識別出數(shù)據(jù)背后的結(jié)構(gòu)化特征，更好的做出預(yù)測；
利用了貝葉斯估計的思想，得到參數(shù)的后驗分布情況，計算效應(yīng)值時能夠給出置信區(qū)間。但第（2）點對于BSTS模型是一把“雙刃劍”，如果先驗分布設(shè)置得不好，會影響MCMC的收斂速度和方向甚至最終的后驗分布情況。因此對于先驗分布的選取需謹(jǐn)慎。

七、方法拓展

本文介紹的結(jié)構(gòu)化時序模型將數(shù)據(jù)的周期特點拆分成了趨勢項、季節(jié)項、周期項等等，每種元素挨個探究。更進(jìn)一步，我們可以將時間序列按照周期性的長短來進(jìn)行拆分，分為長周期項（使用大滑動窗口）、短周期項（使用小滑動窗口）、季節(jié)項等等。這樣的好處是防止一些小窗口內(nèi)的周期情況被長周期的信息平滑掉，能夠更好的體現(xiàn)出數(shù)據(jù)在不同程度上的周期特點。具體的方程可以拆分成如下形式：

其中表示不同時間點的狀態(tài)值；4個模塊分別代表長周期項/短周期項/季節(jié)項/序列相關(guān)性項（帶有協(xié)變量X）；每個結(jié)構(gòu)模塊都有一個均值和一個標(biāo)準(zhǔn)差。

圖7-1展示了某時間序列背后的4個模塊：從上至下以此表示：原數(shù)據(jù)情況；季節(jié)性因子；短周期項；相關(guān)性項；長周期項。短周期來看數(shù)據(jù)的波動比較明顯；長周期來看數(shù)據(jù)波動較不明顯，因此這里需要考慮到短周期內(nèi)的數(shù)據(jù)結(jié)構(gòu)，避免被長周期的數(shù)據(jù)平滑。

接下來對以上4種模塊分別進(jìn)行預(yù)測。針對長周期和季節(jié)性，由于他們在短時間內(nèi)的變化不大，因此可以直接使用對應(yīng)方程中的μ和σ來進(jìn)行預(yù)測；針對短周期項和相關(guān)性項可以通過其他機器學(xué)習(xí)方式進(jìn)行預(yù)測。得到各個模塊的預(yù)測結(jié)果之后，結(jié)合各模塊特征進(jìn)行融合，得到整體的預(yù)測結(jié)果。參考文獻(xiàn)[4]中給出了更具體的預(yù)測方式和與傳統(tǒng)方式的對比結(jié)果。

圖7-2展示針對長短周期不同的預(yù)測方式：長周期項與季節(jié)項可以直接用μ表示預(yù)測；短周期及協(xié)變量相關(guān)項使用自定義的機器學(xué)習(xí)模型進(jìn)行預(yù)測。

依照上述方法得到的時序預(yù)測模型后，我們再將其代入CausalImpact的代碼中，調(diào)整參數(shù)model為自定義的時序模型即可。

八、總結(jié)

本文介紹了用因果推斷的方式評估某一政策作用于時間序列數(shù)據(jù)帶來的效應(yīng)，使用了BSTS的狀態(tài)空間模型來進(jìn)行反事實值的預(yù)測，并通過CausalImpact的代碼進(jìn)行實現(xiàn)。

不同于其他因果推斷方法的框架，本文中的方法對所有超參數(shù)進(jìn)行貝葉斯估計，再對后驗分布進(jìn)行MC采樣得到反事實的預(yù)測值，主要優(yōu)勢是能夠根據(jù)最大程度考慮到所有對照組以及實驗組自身的結(jié)構(gòu)特點，給出反事實預(yù)測值的估計以及置信區(qū)間，衡量效應(yīng)值的顯著性。

同時，本文介紹的方法主要聚焦于結(jié)構(gòu)化時序數(shù)據(jù)，利用BSTS模型識別觀測數(shù)據(jù)背后的狀態(tài)值以及各個狀態(tài)之間的轉(zhuǎn)化情況，進(jìn)而在進(jìn)行反事實預(yù)測時，盡可能消除由隱藏狀態(tài)帶來的影響。

需要注意的是，使用BSTS模型之前，需要驗證數(shù)據(jù)是否真的有周期性特點以及結(jié)構(gòu)元素是怎樣的（是否是長短周期等等），再挑選合適的時序模型來訓(xùn)練；同時對于參數(shù)的先驗分布設(shè)置也需謹(jǐn)慎，盡可能使得最終的效應(yīng)估計值科學(xué)穩(wěn)定。

責(zé)任編輯：張燕妮來源：攜程技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="ctjfa"><abbr id="ctjfa"></abbr></legend><cite id="ctjfa"><track id="ctjfa"></track></cite>