偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="v65vd"><sup id="v65vd"></sup></thead>

<pre id="v65vd"></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

基于反事實(shí)因果推斷的度小滿額度模型

作者：萬世想 2023-06-02 07:19:56

人工智能算法

本次分享題目為基于反事實(shí)因果推斷的度小滿額度模型。

一、因果推斷的研究范式

研究范式目前主要有兩個(gè)主要的研究方向：

Judea Pearl Structure Model
潛在的輸出框架

在Judea Pearl 《The Book of Why – The New Science of Cause and Effect》這本書中，將認(rèn)知階梯定位為三層：

第一層-關(guān)聯(lián)：通過關(guān)聯(lián)的方式找出規(guī)律，可以直接觀察；
第二層-干預(yù)：如果改變現(xiàn)狀，應(yīng)當(dāng)實(shí)施什么樣的行動(dòng)，得出什么樣的結(jié)論，可以通過實(shí)驗(yàn)觀察；
第三層-反事實(shí)：由于法律法規(guī)等問題無法直接實(shí)驗(yàn)觀察，通過反事實(shí)假設(shè)，如果實(shí)施了行動(dòng)，會(huì)發(fā)生什么，如何評(píng)估ATE和CATE，是較為困難的一個(gè)問題。

首先闡述下產(chǎn)生相關(guān)關(guān)系的四種方式：

1. 因果關(guān)聯(lián)：原因和結(jié)果之間有可靠的，可追溯的，能夠正向依賴的關(guān)系，比如煙霧與煙霧報(bào)警器具有因果關(guān)聯(lián)；

2. 混淆關(guān)聯(lián)：含有未能直接觀測(cè)的混淆變量，比如身高和閱讀能力是否能夠關(guān)聯(lián)起來，需要控制年齡這個(gè)變量相似，從而得出有效的結(jié)論；

3. 選擇偏差：本質(zhì)上是伯克森悖論，比如探究外貌和才華的關(guān)系，如果只在明星群體中觀察，可能會(huì)得出結(jié)論：長相和才華不可兼得。如果在全部人類里觀察，長相與才華沒有因果關(guān)系。

4. 逆向因果關(guān)系：即因果倒置，比如統(tǒng)計(jì)顯示人類結(jié)婚時(shí)間越長，壽命就越長。但是反過來，我們不能說：如果想獲取更長的壽命，就要早早結(jié)婚。

混淆因子如何影響觀測(cè)結(jié)果，這里有兩個(gè)case可以說明：

上面圖片描述了運(yùn)動(dòng)量與膽固醇水平的關(guān)系。從左圖可得出結(jié)論：運(yùn)動(dòng)量越大，膽固醇水平越高。但是加入年齡分層來看，相同年齡分層下，運(yùn)動(dòng)量越大，膽固醇水平越低。此外，隨著年齡增長，膽固醇水平逐漸升高，這個(gè)結(jié)論才符合我們的認(rèn)知。

第二個(gè)例子為信貸場(chǎng)景。從歷史統(tǒng)計(jì)數(shù)據(jù)中可以看出，給定的額度（能借到的錢款數(shù)）越高，逾期率越低。但是金融領(lǐng)域，會(huì)首先根據(jù)借款人的A卡判斷其信用資質(zhì)，如果信用資質(zhì)越好，則平臺(tái)賦予額度越高，整體逾期率也很低。但是根據(jù)局部隨機(jī)實(shí)驗(yàn)表明，相同信用資質(zhì)人群，會(huì)有一部分人其額度風(fēng)險(xiǎn)遷移曲線變化比較緩慢，也會(huì)有一部分人其額度遷移風(fēng)險(xiǎn)較高，即額度提升后，帶來的風(fēng)險(xiǎn)增量較大。

上面兩個(gè)case說明，如果建模中忽略混淆因子，可能會(huì)得到錯(cuò)誤，甚至相反的結(jié)論。

如何從RCT隨機(jī)樣本過渡到觀測(cè)樣本因果建模？

對(duì)于RCT樣本的情況，如果希望評(píng)估ATE指標(biāo)，可以通過分組相減或DID(difference in difference)。如果希望評(píng)估CATE指標(biāo)，可以通過uplift 建模。常見的方法比如有meta-learner，double machine learning，causal forest等等。這里需要注意必要的三大假設(shè)：SUTVA，Unconfoundedness和Positivity。最核心的假設(shè)為：不存在未觀測(cè)混淆因子。

對(duì)于僅有觀測(cè)樣本的情況，無法直接獲取treatment->outcome的因果關(guān)系，我們需要借助必要的手段切斷covariates到treatment的后門路徑。常見方法是工具變量法和反事實(shí)表示學(xué)習(xí)。工具變量法需要對(duì)具體業(yè)務(wù)抽絲剝繭，繪制業(yè)務(wù)變量中因果圖。反事實(shí)表示學(xué)習(xí)則依靠成熟的機(jī)器學(xué)習(xí)，匹配covariates相似的樣本做因果評(píng)估。

二、、因果推斷的框架演進(jìn)

1、從隨機(jī)數(shù)據(jù)到觀測(cè)數(shù)據(jù)

接下來介紹因果推斷的框架演進(jìn)，是如何一步步過度到因果表示學(xué)習(xí)的。

常見Uplift Model有：Slearner, Tlearner, Xlearner。

其中Slearner將干預(yù)變量視為一維特征。需要注意，在常見的樹模型里，treatment容易被淹沒，導(dǎo)致treatment effect估計(jì)偏小。

Tlearner將treatment離散化，對(duì)干預(yù)變量分組建模，每一個(gè)treatment建立預(yù)測(cè)模型，再作差。需要注意，較少的樣本量會(huì)帶來較高的估計(jì)方差。

Xlearner分組交叉建模，將實(shí)驗(yàn)組和對(duì)照組分別進(jìn)行交叉計(jì)算訓(xùn)練。該方法綜合了S/T-learner的優(yōu)點(diǎn)，其缺點(diǎn)是引入了更高的模型結(jié)構(gòu)誤差，提高了調(diào)參難度。

三種model比較：

在上圖中，橫軸是復(fù)雜的因果效應(yīng)，MSE的的估計(jì)誤差，縱軸是簡單的因果效應(yīng)，橫軸縱軸分別表示兩份數(shù)據(jù)。綠色表示Slearner的誤差分布，褐色表示Tlearner的誤差分布，藍(lán)色表示Xlearner的誤差分布。

在隨機(jī)樣本條件下，Xlearner對(duì)于復(fù)雜的因果效應(yīng)估計(jì)和簡單的因果效應(yīng)估計(jì)均更優(yōu)；Slearner對(duì)于復(fù)雜因果效應(yīng)預(yù)估表現(xiàn)相對(duì)較差，對(duì)簡單因果效應(yīng)估計(jì)更優(yōu)；Tlearner則與Slearner相反。

如果有隨機(jī)樣本，X到T的箭頭可以去掉。過渡到觀測(cè)建模后X到T的箭頭去不掉，treatment和outcome會(huì)同時(shí)受到confounders的影響，這時(shí)可以進(jìn)行一些消偏處理。比如DML（Double Machine Learning)的方式，進(jìn)行兩階段建模。在第一階段中，這里的X是用戶自身的表征特征，比如年齡、性別等?；煜兞繒?huì)包括比如歷史中對(duì)篩選特定人群的操作。在第二階段中，對(duì)上一階段計(jì)算結(jié)果的誤差進(jìn)行建模，這里的即是對(duì)CATE的估計(jì)。

從隨機(jī)數(shù)據(jù)到觀測(cè)數(shù)據(jù)有三種處理方式：

（1）做隨機(jī)試驗(yàn)，但業(yè)務(wù)成本較高；

（2）尋找工具變量，一般比較困難；

（3）假設(shè)觀測(cè)到所有的混淆因子，利用DML、表示學(xué)習(xí)等方法匹配相似樣本。

2、因果表示學(xué)習(xí)

反事實(shí)學(xué)習(xí)的核心思想就是平衡不同treatment下的特征分布。

核心問題有兩個(gè)：

1. 如何調(diào)整訓(xùn)練樣本的權(quán)重？

2. 如何在表示空間中，使變換后的樣本在實(shí)驗(yàn)組和對(duì)照組分布更加均衡？

本質(zhì)思想是在變換映射后，為每個(gè)樣本尋找它的反事實(shí)“雙胞胎”。映射之后treatment組和control組X的分布比較相似。

比較有代表性的工作是發(fā)表在TKDE 2022上面的一篇論文，介紹了DeR-CFR的一些工作，這部分其實(shí)是DR-CRF模型的迭代，采用model-free的方式分離觀測(cè)變量。

將X變量分成三塊：調(diào)節(jié)變量A，工具變量I和混淆變量C。之后再通過I，C，A來調(diào)節(jié)不同treatment下X的權(quán)重，達(dá)到在觀測(cè)數(shù)據(jù)上進(jìn)行因果建模的目的。

這種方法的優(yōu)勢(shì)是可以分離混淆因子，減少估計(jì)偏差。缺點(diǎn)是難以處理連續(xù)型干預(yù)。

這個(gè)網(wǎng)絡(luò)的核心就是如何分離A/I/C三類變量。調(diào)節(jié)變量A只與Y有關(guān)，需要保證A與T正交，并且A對(duì)Y的經(jīng)驗(yàn)誤差較小；工具變量I只與T有關(guān)，需要滿足I與Y關(guān)于T條件獨(dú)立，并且I對(duì)T的經(jīng)驗(yàn)誤差較??；混淆變量C與T和Y都相關(guān)，w是網(wǎng)絡(luò)的權(quán)重，給了網(wǎng)絡(luò)權(quán)重后，需要保證C與T關(guān)于w條件獨(dú)立。這里的正交性可以通過一般的距離公式實(shí)現(xiàn)，比如logloss或者mse歐氏距離等約束。

如何處理連續(xù)型干預(yù)，這塊也是有一些新的論文研究，發(fā)表在ICLR2021上的VCNet，提供了連續(xù)型干預(yù)的估計(jì)方法。缺點(diǎn)是難以直接應(yīng)用在觀測(cè)數(shù)據(jù)上（CFR場(chǎng)景）。

將X映射到Z上，Z主要包含之前提到的X分解中的I變量和C變量，即將對(duì)treatment比較有貢獻(xiàn)的變量從X中提取出來了。這里將連續(xù)treatment劃分為B個(gè)分段/預(yù)測(cè)頭，每個(gè)連續(xù)函數(shù)轉(zhuǎn)化成分段的線性函數(shù)，最下化經(jīng)驗(yàn)誤差log-loss，用來學(xué)習(xí)

之后再用學(xué)完的Z和θ(t)去學(xué)習(xí)。

即outcome。這里的θ(t)是可以處理連續(xù)型treatment的關(guān)鍵，是一個(gè)變系數(shù)的模型，但是這個(gè)模型只處理了連續(xù)性treatment，如果是觀測(cè)數(shù)據(jù)，無法保證每一個(gè)B分段數(shù)據(jù)同質(zhì)。

三、反事實(shí)額度模型 Mono-CFR

最后來介紹一下度小滿的反事實(shí)額度模型，這里主要解決的是在觀測(cè)數(shù)據(jù)上對(duì)連續(xù)型Treatment的反事實(shí)估計(jì)問題。

核心問題是，如何給用戶設(shè)計(jì)（可借）額度，使得平臺(tái)盈利最大化？這里的先驗(yàn)知識(shí)是，額度越高，用戶借款越多，違約風(fēng)險(xiǎn)越高。反之同理。

第一步，定義盈利公式。盈利=額度收入-額度風(fēng)險(xiǎn)。公式看起來簡單，但實(shí)際上會(huì)有很多細(xì)節(jié)的調(diào)整。這樣，問題就轉(zhuǎn)化為了在觀測(cè)數(shù)據(jù)上建模額度與風(fēng)險(xiǎn)(壞賬)、額度與收入的因果關(guān)系。
第二步，估計(jì)用戶在各個(gè)額度檔位上的預(yù)估收入和壞賬，確定最大盈利額度。

我們期望對(duì)每個(gè)用戶有如上圖所示的一個(gè)盈利曲線，在不同的額度檔位上，對(duì)收益值做反事實(shí)預(yù)估。

如果在觀測(cè)數(shù)據(jù)上看到額度越高風(fēng)險(xiǎn)越低，本質(zhì)上是由于混淆因子的存在。我們場(chǎng)景里的混淆因子是信用資質(zhì)。信用資質(zhì)比較好的人，平臺(tái)會(huì)賦予更高的額度，反之則賦予較低額度。優(yōu)信用資質(zhì)人群的絕對(duì)風(fēng)險(xiǎn)仍舊明顯低于低信用資質(zhì)人群。若拉齊信用資質(zhì)，會(huì)看到額度的提升將帶來風(fēng)險(xiǎn)的提升，高額度突破了用戶自身的償債能力。

我們開始介紹反事實(shí)額度模型的框架。在可觀測(cè)變量X中，存在之前提到的三種變量，其中大多數(shù)是混淆變量C，小部分是策略未考慮到的是調(diào)節(jié)變量A，還有一部分是僅僅跟干預(yù)有關(guān)系的工具變量I。

工具變量I：如政策、需求等，會(huì)影響歷史的定額策略，但不會(huì)影響逾期概率。
混淆變量C：如信用、收入與負(fù)債等，同時(shí)影響對(duì)額度的調(diào)整，和這個(gè)人的逾期概率。
調(diào)節(jié)變量A：如環(huán)境、社會(huì)地位等，會(huì)影響逾期率。

模型思想：給定期望額度μ(T|X)，學(xué)習(xí)?T與Y的單調(diào)性關(guān)系（Dose-Response Curve）。期望額度可以理解為模型學(xué)習(xí)到的連續(xù)性傾向額度，使得混淆變量C和額度T之間的關(guān)系能夠斷開，轉(zhuǎn)換成?T與Y的因果關(guān)系學(xué)習(xí)，從而對(duì)?T下Y的分布進(jìn)行較好的刻畫。

這里進(jìn)一步細(xì)化上述抽象的框架：將?T轉(zhuǎn)化成變系數(shù)模型，再接入IntegrandNN網(wǎng)絡(luò)，訓(xùn)練誤差分成兩部分：

這里的α是衡量風(fēng)險(xiǎn)重要程度的超參數(shù)。

Mono-CFR由兩大部分組成：

額度傾向網(wǎng)絡(luò)：預(yù)測(cè)策略傾向額度，使X⊥?T。

作用一：蒸餾出X中與T最相關(guān)的變量，最小化經(jīng)驗(yàn)誤差。

作用二：錨定歷史策略上的近似樣本。

風(fēng)險(xiǎn)單調(diào)網(wǎng)絡(luò)：約束?T與Y的理論單調(diào)關(guān)系。

作用一：對(duì)弱系數(shù)變量施加獨(dú)立單調(diào)約束。

作用二：減少估計(jì)偏差。

問題轉(zhuǎn)化為：

額度傾向網(wǎng)絡(luò)：驗(yàn)證輸出?T與Y 的關(guān)系。
風(fēng)險(xiǎn)單調(diào)網(wǎng)絡(luò)：如何約束?T與Y的單調(diào)性？

實(shí)際額度傾向網(wǎng)絡(luò)輸入如下：

橫軸是A卡評(píng)分定義出的人群，可以看出，不同傾向額度μ(T|X)下，額度差?T與逾期率Y呈現(xiàn)單調(diào)遞增關(guān)系，越劣質(zhì)人群的額度差?T變化曲線越陡峭，實(shí)際逾期率變化曲線也越陡峭，整個(gè)曲線斜率更大。此處的結(jié)論完全是通過歷史的數(shù)據(jù)學(xué)習(xí)得出的。

從X和?T分布圖中可以看出：不同資質(zhì)人群（圖中通過不同顏色區(qū)分）的額度差?T均勻分布在相似的區(qū)間之中，這是從實(shí)際角度說明。

從理論角度，亦可被嚴(yán)格證明。

第二部分是風(fēng)險(xiǎn)單調(diào)網(wǎng)絡(luò)的實(shí)現(xiàn)：

這里的ELU+1函數(shù)數(shù)學(xué)表達(dá)式為：

?T和逾期率呈現(xiàn)單調(diào)遞增的變化趨勢(shì)，通過ELU+1函數(shù)的導(dǎo)數(shù)總是大于等于0來保證。

接下來說明風(fēng)險(xiǎn)單調(diào)網(wǎng)絡(luò)如何對(duì)弱系數(shù)變量學(xué)的更加準(zhǔn)確：

假設(shè)有這樣一個(gè)公式：

可以看出這里的x₁即為弱系數(shù)變量，當(dāng)對(duì)x₁施加單調(diào)性約束后，對(duì)響應(yīng)Y的估計(jì)更加準(zhǔn)確。如果沒有這樣的單獨(dú)約束，x₁的重要性會(huì)被x₂淹沒，導(dǎo)致模型偏差增大。

如何離線評(píng)估額度的風(fēng)險(xiǎn)的估計(jì)曲線？

分成兩部分：

第一部分：可解釋驗(yàn)證

不同資質(zhì)人群下，去繪制如上圖所示的額度風(fēng)險(xiǎn)變化曲線，模型可以學(xué)出不同資質(zhì)人群（圖中不同顏色標(biāo)識(shí)）不同檔位實(shí)際額度和逾期率的區(qū)分度。

第二部分：利用小流量實(shí)驗(yàn)驗(yàn)證，不同提額幅度下的風(fēng)險(xiǎn)偏差，可以通過uplift分箱得出。

線上實(shí)驗(yàn)結(jié)論：

在額度上漲30%條件下，用戶逾期金額下降20%以上，借款提升30%，盈利性提升 30%以上。

未來模型預(yù)期：

以model-free形式將工具變量與調(diào)節(jié)變量更清晰地分開，使模型在劣質(zhì)人群上的風(fēng)險(xiǎn)遷移表現(xiàn)更佳。

在實(shí)際業(yè)務(wù)場(chǎng)景中，度小滿的模型演進(jìn)迭代流程如下：

第一步，觀測(cè)建模，不斷滾動(dòng)歷史觀測(cè)數(shù)據(jù)，去做反事實(shí)因果學(xué)習(xí)，不斷拉新訓(xùn)練窗口，補(bǔ)充外部數(shù)據(jù)源。

第二步，模型迭代，依據(jù)小流量隨機(jī)樣本進(jìn)行效果驗(yàn)證，支持有效的模型迭代。

第三步，業(yè)務(wù)決策，業(yè)務(wù)根據(jù)模型輸出進(jìn)行實(shí)驗(yàn)決策，驗(yàn)證模型效果提升，拿到業(yè)務(wù)收益。

責(zé)任編輯：姜華來源： DataFunTalk

因果推斷度小滿

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="7vduj"><rp id="7vduj"><b id="7vduj"></b></rp></cite>

<style id="7vduj"><rp id="7vduj"></rp></style>

<kbd id="7vduj"></kbd>