#研究典範目前主要有兩個主要的研究方向:
#在Judea Pearl 《The Book of Why – The New Science of Cause and Effect》這本書中,將認知階梯定位為三層:
首先闡述下產生相關關係的四種方式:
1. 因果關聯:原因和結果之間有可靠的,可追溯的,能夠正向依賴的關係,例如煙霧與煙霧警報器具有因果關聯;
#2. 混淆關聯:含有未能直接觀測的混淆變量,例如身高和閱讀能力是否能夠關聯起來,需要控制年齡這個變數相似,從而得出有效的結論;
3. 選擇偏差:本質上是伯克森悖論,例如探究外表和才華的關係,如果只在明星群體中觀察,可能會得出結論:外表和才華不可兼得。如果在全部人類裡觀察,外表與才華沒有因果關係。
4. 逆向因果關係:即因果倒置,例如統計顯示人類結婚時間越長,壽命就越長。但反過來,我們不能說:如果想獲得更長的壽命,就要提早結婚。
混淆因子如何影響觀測結果,這裡有兩個case可以說明:
上面圖片描述了運動量與膽固醇水平的關係。從左圖可得出結論:運動量越大,膽固醇水平越高。但加入年齡分層來看,相同年齡分層下,運動量越大,膽固醇越低。此外,隨著年齡增長,膽固醇水平逐漸升高,這個結論才符合我們的認知。
#第二個例子為信用場景。從歷史統計資料可以看出,給定的額度(能藉到的錢款數)越高,逾期率越低。但金融領域,會先根據借款人的A卡判斷其信用資質,如果信用資質越好,則平台賦予額度越高,整體逾期率也很低。但根據局部隨機實驗表明,相同信用資質人群,會有一部分人其額度風險遷移曲線變化比較緩慢,也會有一部分人其額度遷移風險較高,即額度提升後,帶來的風險增量較大。
上面兩個case說明,如果建模中忽略混淆因子,可能會得到錯誤,甚至相反的結論。
對於RCT樣本的情況,如果希望評估ATE指標,可以透過分組相減或DID(difference in difference)。如果希望評估CATE指標,可以透過uplift 建模。常見的方法例如有meta-learner,double machine learning,causal forest等等。這裡要注意必要的三大假設:SUTVA,Unconfoundedness和Positivity。最核心的假設為:不存在未觀測混淆因子。
對於僅有觀測樣本的情況,無法直接取得treatment->outcome的因果關係,我們需要藉助必要的手段切斷covariates到treatment的後門路徑。常見方法是工具變數法和反事實表示學習。工具變數法需要對具體業務抽絲剝繭,繪製業務變數中因果圖。反事實表示學習則依賴成熟的機器學習,配對covariates相似的樣本做因果評估。
接下來介紹因果推論的框架演進,是如何一步步過度到因果表示學習的。
常見Uplift Model有:Slearner, Tlearner, Xlearner。
其中Slearner將介入變數視為一維特徵。需要注意,在常見的樹模型裡,treatment容易被淹沒,導致treatment effect估計偏小。
Tlearner將treatment離散化,對介入變數分組建模,每一個treatment建立預測模型,再作差。需要注意,較少的樣本量會帶來較高的估計變異數。
Xlearner分組交叉建模,將實驗組和對照組分別進行交叉運算訓練。此方法綜合了S/T-learner的優點,其缺點是引入了更高的模型結構誤差,提高了調參難度。
三種model比較:
在上圖中,橫軸是複雜的因果效應,MSE的的估計誤差,縱軸是簡單的因果效應,橫軸縱軸分別表示兩份數據。綠色表示Slearner的誤差分佈,褐色表示Tlearner的誤差分佈,藍色表示Xlearner的誤差分佈。
#在隨機樣本條件下,Xlearner對於複雜的因果效應估計和簡單的因果效應估計均更優;Slearner對於複雜因果效應預估表現相對較差,對簡單因果效應估計更優;Tlearner則與Slearner相反。
#如果有隨機樣本,X到T的箭頭可以去掉。過渡到觀測建模後X到T的箭頭去不掉,treatment和outcome會同時受到confounders的影響,這時可以進行一些消偏處理。例如DML(Double Machine Learning)的方式,進行兩階段建模。在第一階段中,這裡的X是使用者本身的表徵特徵,例如年齡、性別等。混淆變數會包含例如歷史中篩選特定人群的操作。在第二階段中,對上一階段計算結果的誤差進行建模,這裡的即是對CATE的估計。
從隨機資料到觀測資料有三種處理方式:
(1)做隨機試驗,但業務成本較高;
(2)尋找工具變量,一般比較困難;
(3)假設觀測到所有的混淆因子,利用DML、表示學習等方法來配對相似樣本。
反事實學習的核心思想就是平衡不同treatment下的特徵分佈。
核心問題有兩個:
1. 如何調整訓練樣本的權重?
2. 如何在表示空間中,讓轉換後的樣本在實驗組和對照組分佈更平衡?
本質思想是在變換映射後,為每個樣本尋找它的反事實「雙胞胎」。映射之後treatment組和control組X的分佈比較相似。
比較有代表性的工作是發表在TKDE 2022上面的論文,介紹了DeR-CFR的一些工作,這部分其實是DR-CRF模型的迭代,採用model-free的方式分離觀測變數。
將X變數分成三塊:調節變數A,工具變數I和混淆變數C。之後再透過I,C,A來調節不同treatment下X的權重,達到在觀測資料上進行因果建模的目的。
這種方法的優點是可以分離混淆因子,減少估計偏差。缺點是難以處理連續型介入。
這個網路的核心就是如何分離A/I/C三類變數。調節變數A只與Y有關,需要確保A與T正交,且A對Y的經驗誤差較小;工具變數I只與T有關,需要滿足I與Y關於T條件獨立,且I對T的經驗誤差較小;混淆變數C與T和Y都相關,w是網路的權重,給了網路權重後,需要保證C與T關於w條件獨立。這裡的正交性可以透過一般的距離公式來實現,例如logloss或mse歐氏距離等限制。
如何處理連續型乾預,這塊也是有一些新的論文研究,發表在ICLR2021上的VCNet,提供了連續型乾預的估計方法。缺點是難以直接應用在觀測資料上(CFR場景)。
將X映射到Z上,Z主要包含先前提到的X分解中的I變數和C變量,即將對treatment比較有貢獻的變數從X中提取出來了。這裡將連續treatment分成B個分段/預測頭,每個連續函數轉換成分段的線性函數,最下化經驗誤差log-loss,用來學習
之後再用學完的Z和θ(t)去學習。 即outcome。這裡的θ(t)是可以處理連續型treatment的關鍵,是一個變係數的模型,但是這個模型只處理了連續性treatment,如果是觀測數據,無法保證每一個B分段數據同質。
最後來介紹一下度小滿的反事實額度模型,這裡主要解決的是觀測資料上對連續型Treatment的反事實估計問題。
核心問題是,如何給使用者設計(可藉)額度,使得平台獲利最大化?這裡的先驗知識是,額度越高,用戶借款越多,違約風險越高。反之同理。
我們期望對每個使用者有如上圖所示的一個獲利曲線,在不同的額度檔位上,對收益值做反事實預估。
如果在觀測資料上看到額度越高風險越低,本質上是由於混淆因子的存在。我們場景裡的混淆因子是信用資質。信用資質比較好的人,平台會賦予更高的額度,反之則賦予較低額度。優信用資質族群的絕對風險仍舊明顯低於低信用資質族群。若拉齊信用資質,會看到額度的提升將帶來風險的提升,高額度突破了使用者自身的償債能力。
我們開始介紹反事實額度模型的架構。在可觀測變數X中,存在先前提到的三種變量,其中大多數是混淆變數C,小部分是策略未考慮到的是調節變數A,還有一部分是僅跟介入有關係的工具變數I 。
模型想法:給定期望額度μ(T|X),學習∆T與Y的單調性關係(Dose-Response Curve) 。期望額度可以理解為模型學習到的連續性傾向額度,使得混淆變數C和額度T之間的關係能夠斷開,轉換成∆T與Y的因果關係學習,從而對∆T下Y的分佈進行較好的刻畫。
#這裡進一步精進上述抽象的框架:將∆T轉換成變係數模型,再接入IntegrandNN網絡,訓練誤差分成兩部分:
這裡的α是衡量風險重要性的超參數。
Mono-CFR由兩大部分組成:
作用一:蒸餾出X中與T最相關的變量,最小化經驗誤差。
作用二:錨定歷史策略上的近似樣本。
作用一:對弱係數變數施加獨立單調限制。
作用二:減少估計偏差。
問題轉換為:
實際額度傾向網路輸入如下:
##橫軸是A卡分數定義出的人群,可以看出,不同傾向額度μ(T|X)下,額度差∆T與逾期率Y呈現單調遞增關係,越劣質人群的額度差∆T變化曲線越陡峭,實際逾期率變化曲線也越陡峭,整個曲線斜率更大。這裡的結論完全是透過歷史的數據學習得出的。
#從X與∆T分佈圖中可以看出:不同資質人群(圖中透過不同顏色區分)的額度差∆T均勻分佈在相似的區間之中,這是從實際角度說明。 #
從理論角度,亦可嚴格證明。
第二部分是風險單調網路的實作:
這裡的ELU 1函數數學運算式為:
∆T和逾期率呈現單調遞增的變化趨勢,透過ELU 1函數的導數總是大於等於0來保證。
接下來說明風險單調網路如何對弱係數變數學的更準確:
#假設有這樣一個公式:
#可以看出這裡的x1即為弱係數變量,當對x1施加單調性約束後,對響應Y的估計更加準確。如果沒有這樣的單獨約束,x1的重要性會被x2淹沒,導致模型偏差增加。
分成兩部分:
##不同資質人群下,去繪製如上圖所示的額度風險變化曲線,模型可以學出不同資質族群(圖中不同顏色標識)不同檔位實際額度與逾期率的區分度。
線上實驗結論:
在額度上漲30%條件下,用戶逾期金額下降20%以上, 借款提升30%,獲利性提升30%以上。
未來模型預期:
#以model-free形式將工具變數與調節變數更清晰地分開,使模型在劣質人群上的風險遷移表現更佳。
在實際業務場景中,度小滿的模型演進迭代流程如下:
第一步,觀測建模,不斷捲動歷史觀測數據,去做反事實因果學習,不斷拉新訓練窗口,補充外部資料來源。
第二步,模型迭代,依據小流量隨機樣本進行效果驗證,支援有效的模型迭代。
第三步,業務決策,業務根據模型輸出進行實驗決策,驗證模型效果提升,拿到業務效益。
#以上是基於反事實因果推論的度小滿額度模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!