首頁 >科技週邊 >人工智慧 >CMU張坤:因果表徵技術最新進展

CMU張坤:因果表徵技術最新進展

王林
王林轉載
2023-04-07 15:41:021497瀏覽

CMU張坤:因果表徵技術最新進展

一、為何在意因果關係

先介紹何為因果關係:

CMU張坤:因果表徵技術最新進展

當我們說變數/事件之間是有關係的,意思是說它們不是獨立的,這樣它們之間一定存在一些關係。然而X 是Y 的「因」的意思是,如果採用特定方法改變X(天下雨),Y(地面變濕)則會隨之改變,即對X 進行「intervention」 人為幹預時,Y 的分佈是不一樣的。需要注意的是,這裡的干預不是隨意的,而是非常精確的對目標變數(target variable)的直接控制(直接對「天下雨」進行改變),這個改變不會直接影響系統中的其他變數。同時透過這種方式,即直接人為幹預,我們也能夠確定某一變數是否是另一個變數的直接原因。

CMU張坤:因果表徵技術最新進展

下面對分析因果關係的必要性進行了舉例:

① 一個經典的案例是:肺病和指甲顏色透過抽煙存在著一些關係,即由於香菸沒有過濾嘴,經常抽煙會使手指甲變黃,抽煙也可能導致肺部疾病。如果想改變某個地區肺部疾病的發生率,不能透過將指甲漂白來改善,需要找到導致肺部疾病的原因,而不是改變肺部疾病存在的依賴關係。要達到改變肺部疾病發生率的目的,就需要進行因果分析。

② 第二個案例是:辛普森悖論。上圖右邊是一個真實的數據集,數據集展示了兩組腎結石數據,一組結石比較小,另一組結石比較大;此外還有兩種治療方式 A 和 B。在表中可以發現,不管是小結石組或大結石組,A 治療方式獲得的結果會好一些,治癒率分別是 93% 和 73%,B 治療方式的治癒率分別是 87% 和 69%。但將同一治療方法的兩組結石病人混合在一起統計,整體來看 B 治療方案的效果(83%)反而比 A(78%)更好。假設你是只在意治癒率的醫生,對新病人該如何選擇治療方案。造成這種情況的原因在於,進行推薦時,我們只在意治療方式到治癒的因果聯繫,而不在意其他依賴關係。然而石頭大小是治療方式和是否治癒的共同原因,它導致治療方式和治癒的依賴關係在數量上發生改變。故當研究治療方式和治癒的關係時,應該討論前者對後者的因果關係,而不是依賴關係。

③ 第三個案例:在 50 年以前,統計顯示大學中的女性平均會比男性更聰明,然而實際兩者不應該有明顯差異。這其中存在著選擇偏差(selection bias),因為女性比男性更難進入大學,也就是學校招收學生時,會受到性別、考試能力等因素影響。當「果」已經發生時,性別和考試能力就會有某些關係了。當使用網路擷取的資料時也會有選擇偏差的問題。一個數據點是否被收集和某些屬性往往是有關係的,如果僅分析被放置在互聯網上的數據,就需要注意考慮這些因素。當意識到這一點時,也能透過因果關係來對有選擇偏差的數據進行分析,進而恢復或反推得到整個群體本身的性質。

CMU張坤:因果表徵技術最新進展

上圖展示了幾個機器學習/深度學習的問題:

① 我們知道最有預測和資料的分佈是有關係的。在遷移學習中,例如如果想要將一個模型從非洲遷移到美洲,還能進行最優預測,這顯然就需要根據資料分佈的不同對模型進行適應性調整。這時,分析資料的分佈發生了什麼變化,怎樣發生變化就顯得格外重要。知道資料發生了什麼變化,就能對模型進行相對應的調整。另一個例子,當建構 AI 模型進行疾病診斷時,不會滿足於機器提出的診斷結果,會進一步的想要知道機器為什麼會得出這個結論,例如是哪一個 mutation(變異)導致了疾病。此外,如何治療疾病也會提出許多「為什麼」的問題。同樣,當推薦系統進行推薦時,會想知道為什麼它會推薦該物品/策略,例如該公司僅僅想提高收益,或者該物品/策略很適合用戶,又或者該物品/策略有益於未來。這些「為什麼」的問題都是因果問題。

② 在深度學習領域中,存在著對抗攻擊(adversarial attacks)的概念。如圖,對左邊的大熊貓圖片加入一些特定噪聲,或改變特定像素等,機器就將圖片判定為其他類型動物,而不是大熊貓,並且其置信度還很高。然而對人類來說,這兩張圖片明顯都是大熊貓。這是因為目前機器從圖片中學習到的高層特徵和人類學習到的高層特徵不吻合。如果機器使用的高層特徵與人類不吻合,就有可能發生對抗攻擊。在改變輸入時,人類或機器的判斷會改變,最終判定結果就會有問題。只有讓機器學習到與人類吻合的高層特徵,即機器能以人類的方式學習和使用特徵,才能避免對抗攻擊的情況。

CMU張坤:因果表徵技術最新進展

為什麼要進行因果表徵?

① 讓下游任務受益:如可以幫助下游的分類等任務做得更好。

② 能解釋「為什麼」這類問題。

③ 將資料背後真正的因果特徵恢復出來:哲學中康德的形上學認為,人類所感受到的世界是經驗世界。雖然它是基於背後的世界本體(world-in-itself), 但我們不能直接感知世界本體,經驗世界中已經被感官系統自動添加了一些性質,如時間、空間、因果順序等。由此,如果希望機器學習到與人類吻合的特徵,就需要機器具有學習因果順序/關係、​​時間、空間等特徵的能力。

二、因果表徵學習:獨立同分佈情形

1、因果表徵學習基本概念

如何在獨立同分佈的情形下學習因果關係?首先需要回答兩個問題:一是資料中有哪些性質是與因果關係有關的,在資料中有什麼線索(「footprint」)。二是在取得數據的條件下,是否能恢復出其中的因果關係,即因果系統的可辨識性問題。

CMU張坤:因果表徵技術最新進展

因果系統最本質的性質是「modularity」(模組性):雖然系統中的變數都存在一定的關係,但是可以從因果關係將系統分割成多個子系統(一個原因產生一個因變數)。例如,“天下雨”、“地面濕”、“地面滑”是相互依賴的,通過因果關係可以將其分別劃分為三個子系統:“某些原因導致天下雨”,“天下雨導致地面濕” ,「地面濕導致地上滑」。雖然變數間是有依賴關係的,但這三個 process(過程,即子系統)是沒有聯繫的,不存在參數共享,改變一個系統不會導致另一個系統的改變。如透過噴灑某些物質使「地面濕導致地上滑」的影響改變,這不會影響天是否下雨,也不會改變天下雨對地面濕的影響。這種性質就稱為 “modularity”,即從因果的角度將系統劃分為不同的子模組,且各個子模組間沒有聯繫。

從模組性出發,可以得到因果系統的三個性質:

① 變數之間的條件獨立性。

② 獨立噪音條件。

③ 最小(和獨立)變化。

關於因果系統的可識別性,一般來說機器學習本身不是非常關注可識別性問題的,例如預測模型需要判斷預測結果是否準確或最優,但並沒有一個「真相」進行判斷。但因果分析/因果表徵學習是為了恢復數據“真相”,即更關注是否能將數據背後的因果性質辨識出來。

以下介紹兩個基本概念:

① 因果發現(causal discovery):透過資料探索背後的因果結構/模型。

② 因果表徵學習(causal representation learning):從直接觀察的資料中尋找背後高層的隱變數及變數間關係。

2、因果表徵學習分割

因果表徵學習方法一般從以下三個角度進行分割:

① 資料性質:是否獨立同分佈(“i.i.d. data” )。其中不獨立同分佈數據包括不獨立但同分佈數據,如存在時間依賴關係的同分佈數據(如時間序列數據),也可以是獨立但不同分佈的數據,如數據分佈發生了變化(或這兩者的結合)。

② 參數限制(“parameter constraints”):因果關係的影響上是否有其他額外性質,如參數模型。

③ 潛在混雜因素(“latent confounders”):是否允許系統中存在沒有觀察到的共同因子或混淆因子。

下圖詳細展示了不同情形(setting)下能得到的具體結果:

CMU張坤:因果表徵技術最新進展

#如在獨立同分佈情形下,如果沒有參數模型約束,不管是否有潛在混在因素,一般都能得到等價類(“equivalence class”),如果有參數模型約束,一般則能直接恢復背後的真相。

3、獨立同分佈因果表徵學習

CMU張坤:因果表徵技術最新進展

上圖展示了在獨立同分佈情況下,沒有參數模型限制的例子。數據總共展示了 250 個頭骨的 8 個測量變量,包括性別、地點、天氣,及頭骨的大小、形狀等。考古學家想知道造成不同地區的人外貌不同的原因是什麼,如果知道這段因果關係,或許可以透過環境和其他因素的改變來預測人的外表。顯然無法在這種條件進行人為幹預,即使加入了乾預,也需要相當長的時間才能觀測到結果,故只能從現有觀測資料中尋找因果關係。

CMU張坤:因果表徵技術最新進展

如上圖所示,變數間關係是非常複雜的,可能是線性也可能是非線性,且變數維度也可能不一致。如性別是 1 維,頭骨性狀可能是 255 維。此時可以使用條件獨立的性質來建構因果關係。

方法包括以下兩種:

① PC(Peter-Clark)演算法:演算法假設系統中沒有觀察到共同因子。

② FCI 演算法:用於有隱變數的情況。

下面將使用 PC 演算法來分析考古學資料:從資料中可以得出一系列條件獨立的性質,如變數 X1 和 X5 在給出 X3 時是條件獨立等。同時我們可以證明,如果兩個變數是條件獨立的,那麼它們之間是沒有邊的。然後,我們可以從完整的圖出發,如果變數間是條件獨立的,則去掉相連的邊,即可得到無向圖,然後對圖中邊的方向進行判斷,就可以找出有向無環圖(DAG,Directed Acyclic Graph)或一些有向無環圖的集合來滿足資料中變數間的條件獨立限制。

CMU張坤:因果表徵技術最新進展

上圖展示了使用PC 演算法和核條件獨立檢定方法對考古學資料進行分析的結果:地理位置影響天氣,天氣影響頭骨大小,此外性別也會影響頭骨大小等。透過數據分析得到了背後的因果關係。

在剛才提到兩個問題中,一個是需要找到變數 DAG 的每一條邊的方向,這需要做額外的假設。如果將因對果如何發生影響做一些假設,會發現因和果是不對稱的,這樣就能找出因果方向。下圖中的數據背景還是獨立同分佈數據,並增加了額外的參數限制,且仍不允許系統中存在混淆因子。這時可以使用以下三種類型模型來研究因果方向:

① 線性非高斯模型(Linear non-Gaussian model);

② 後-非線性因果模型(PNL,Post -nonlinear causal model);

③ 加性雜訊模型(ANM,Additive noise model)。

CMU張坤:因果表徵技術最新進展

在線性非高斯模型中,假設從 X 導致 Y,即 X 為因變量,Y 為果變量。從圖中可以看出,用X 解釋Y 進行線性迴歸時,殘差和X 是獨立的;但反過來,使用Y 來解釋X 進行線性迴歸時,殘差和Y 之間是不相關的,但很明顯不是獨立的(線性高斯情況下,變數間不相關表示獨立。但此刻模型是線性非高斯,即不相關並不代表它們獨立)。可以發現因變數和果實變數之間是不對稱的。這種情況同樣適用於後-非線性因果模型和加性噪音模型。

CMU張坤:因果表徵技術最新進展

上圖展示了後非線性因果模型:外面的第2 個非線性函數(f2)一般用於描述系統中的測量過程中引入到非線性變化,在觀察/測量數據時經常會存在非線性變化。如生物領域中,用儀器測量基因表現數據時會有額外的非線性變化。線性模型(Linear models)、非線性加性雜訊模型(Nonlinear additive noise models)以及乘性雜訊模型(Multiplicative noise models)等都是 PNL 模型的特殊情況。

CMU張坤:因果表徵技術最新進展

最上方的散佈圖顯示了變數 x1(海拔)和 x2(年降雨量)的關係。首先假設 x1 導致了 x2,然後建立模型來擬合數據,如左下角圖所示,殘差和 x1 是獨立的;然後假設 x2 導致了 x1,再次擬合模型,我們發現發現殘差和 x2 不獨立(見中間圖)。由此,得出因果方向是由 x1 導致 x2 的。

CMU張坤:因果表徵技術最新進展

從上一個例子確實可以找到因果變數的不對稱性,但從理論上這個結果是否能被保證?而是唯一正確的結果,反方向(果到因)是無法解釋數據的呢?證明如上表所示,五種情形下兩個方向(因到果,果到因)都可以對數據進行解釋,這五個都是非常特殊的情況。第一個是線性高斯模型,關係是線性的,分佈是高斯的,這時因果的不對稱性消失了。其他四個都是特殊模型。

CMU張坤:因果表徵技術最新進展

即使資料是用後非線性模型進行分析的,因果都是能夠被區分的,正確的方向能夠找到獨立的殘差,反方向是找不到的。由於線性模型和非線性加性雜訊模型都是後非線性模型的特殊情況,所以這種情況下這兩種模型也都是適用的,能夠找出因果方向。

給出兩個變量,能用上述方法找到它們的因果方向。但更多情況下需要解決下面的問題:例如在心理學領域,透過問卷的形式收集到了一些問題的答案(xi),這些答案之間是有依賴關係的,也不會認為這些答案之間有直接的因果關係。

CMU張坤:因果表徵技術最新進展

但如上圖所示,這些 xi 是由背後的隱變數 Li 一起產生的。如何透過觀察到的 xi 將其背後的隱變數 Li 及隱變數間關係揭示出來,就顯得尤為重要。

CMU張坤:因果表徵技術最新進展

最近這些年有一些方法可以幫助我們尋找這些因變數以及它們的關係。上圖則展示了泛化獨立雜訊(GIN,Generalized Independent Noise)方法的應用例子,該方法可以解決一系列的問題。數據內容是教師的職業倦怠情況,包含 28 個變項。右圖則展示了專家提出的可能存在的導致這些職業倦怠情況(觀察到的變量)的隱變量,及隱變量間的關係。透過 GIN 方法分析觀察數據所得的結果與專家給出的結果吻合。專家是透過定性的背景知識進行分析的,數據分析的定量分析方式給了專家結果驗證和支持。

CMU張坤:因果表徵技術最新進展

進一步深入分析,可以假設隱變數是分層的,即隱變數層級結構(Latent Hierarchical Structure)。透過分析觀察變數 xi ,就能將背後的隱變數 Li 及其關係揭示出來。

三、從時間序列進行因果表徵學習

了解了獨立同分佈情形下的因果表徵方法,接下來將介紹如何在非線性條件下,獨立同分佈情形下,如何找到背後的隱變數及因果關係。整體來說,在獨立同分佈情形下,需要比較強的條件(包括參數模型假設、線性模型、稀疏圖等)才能找到其中的因果關係。而其他情況下可以更輕鬆的找到因果關係。

CMU張坤:因果表徵技術最新進展

以下將介紹如何從時間序列中找出因果表徵,即在資料不獨立但是同分佈的情況下,如何進行因果分析:

CMU張坤:因果表徵技術最新進展

如果因果關係發生在觀察到的時間序列上,這是經典的從時間序列資料找出因果關係的問題,即格蘭傑因果關係(Granger causality)。格蘭傑因果關係與先前提到的基於條件獨立的因果關係是吻合的,只是加上了時間上的限制(如果不能比因發生得早),進一步還能引進瞬時因果連接(instantaneous causal relations) 。

CMU張坤:因果表徵技術最新進展

上圖展示了更具有實用性的方法。在視訊數據中,數據背後真正有意義的隱藏過程(latent process),我們觀察的數據,作為它們的反應(reflection),由他們的一個可逆光滑非線性函數變換產生。真正的隱因果過程一般是有時間上的因果聯繫的,如“推一下,然後倒下”,這個因果影響一般是有時滯(time-delayed)的。這些條件下,即使是在非常弱的假設下(即使背後的隱過程是非參數的,且g 函數(從隱過程到觀察到的時間序列)也是非參數的),也能完全將背後的隱過程全部揭示出來。

這是因為在恢復到真正的隱過程後,沒有瞬時因果關係和依賴,物體(objects)之間的關係會比較清晰。但如果使用錯誤的分析方式去看觀察數據,例如直接觀察視訊資料的像素(pixel),會發現它們之間是存在瞬時依賴關係的。

CMU張坤:因果表徵技術最新進展

上圖展示了兩個簡單的案例:左邊展示了 KiTTiMask 視訊數據,分析視訊數據得到了三個隱過程:在一個方向移動;在垂直方向上移動;mask 大小改變。右邊展示了5 個不同顏色的小球,某些球之間有彈簧連接(不可見),透過分析可以得到10 個隱變數(5 個小球的x,y 座標),然後找到它們間的因果關係(某些小球之間有彈簧)。基於視訊數據,直接只用完全非監督的方式,引入因果原則,就能找到背後物件(objects)間的關係。

四、多分佈下的因果表徵學習

最後介紹一下當資料分佈改變時的因果分析:

CMU張坤:因果表徵技術最新進展

當隨時間記錄變數/過程時,經常會發現資料分佈會隨時間變化,這是由於背後沒有觀察/測量到的變數的值發生了變化,由此作為反應的觀察變數的資料分佈就發生了變化。類似地,如果在不同條件下測量數據,會發現不同條件/地點測量到的數據的分佈也可能不一樣。

CMU張坤:因果表徵技術最新進展

這裡要強調的一點是,因果建模和資料分佈發生變化是存在非常緊密聯繫的。當給出一個因果模型,基於模組化的性質,這些子模組可以獨立變化,如果能從數據中觀察到這個變化就能驗證因果模型的正確性。這裡所說的因果模型的變化是指,因果影響可以變強/變弱甚至消失。

CMU張坤:因果表徵技術最新進展

在非穩態(nonstationary)資料/異質(heterogeneous)資料中能更直接的發​​掘因果關係,在給出觀察變數後:

① 首先可以觀察發現在哪些變數的因果產生過程會改變;

② 把因果影響的無向邊(skeleton)確定下來;

③ 找出因果方向:當資料分佈發生變化時,可以使用額外的性質:因的變化與果根據因的變化間是相互獨立沒有關聯的。因為不同模組間的變化是獨立的;

④ 使用低維視覺化方法描述因果變化的過程。

下圖展示了對紐約證券交易所中股票daily return 數據(瞬時數據,沒有時滯性)進行分析的部分結果:

CMU張坤:因果表徵技術最新進展

##透過非穩態性可以找出它們之間不對稱性的影響。不同的 sector 往往是一類(cluster),且緊密的連結在一起。右下角圖片展示了股票隨時間變化的因果過程,其中兩條縱軸分別表示了 2007 年和 2008 年經融危機。

CMU張坤:因果表徵技術最新進展

透過多分佈條件下的因果分析方法可以從不同的資料集中找到資料的變化規律,直接應用就可以進行遷移學習,進行領域適用(domain adaptation )。如上圖所示,可以從不同的資料集中找出資料的變化規律,並透過增廣圖(augmented graph)來表示資料的分佈可以發生怎樣的變化,如圖中theta_Y 是表示,Y 在給出它的父親節點下的分佈可以根據其領域(domain)不同而改變。基於描述資料分佈改變的圖,在一個新的領域或目標領域預測Y 就是一個非常標準的問題,即給出特徵(feature)值如何找出Y的後驗機率,是一個推理(inference)問題。

CMU張坤:因果表徵技術最新進展

上圖展示了因果表徵方法在模擬(simulated)資料和真實(real)資料上的推理效果準確率是有明顯提升的。基於定性的變化規律和不同領域的變化性的大小,在新領域出現時再進行適應性調整,這樣的預測效果會比較好。

CMU張坤:因果表徵技術最新進展

上圖展示了最近的部分解糾纏的領域適應(Partial Disentanglement for Domain Adaption)相關工作。已知特徵(feature)和目標(target),假設一切都是非參數的,且有一些因子(factor)隨領域(domain)是不發生變化的即分佈是穩定的,但有個別因子可能發生變化,希望找到這些極少數的分佈改變的因子。基於找到的因子,就可以將不同領域對齊(align)到一起,然後找到不同領域的對應關係,這樣在進行領域適應/遷移學習時就會水到渠成。可以證明導致分佈發生變化的背後獨立的因子,是可以直接從觀察資料中恢復出來的,不變化的這部分因子可以恢復其 subspace。如表格所示,透過以上方法在領域適應中能取得很好的效果。同時,這個方法也符合最小變化(minimal change)的原則,即希望用最少變化的因子來解釋不同領域數據的因子到底發生了怎樣的變化,從而將它們對應起來。

CMU張坤:因果表徵技術最新進展

總結一下,本次分享主要包含了以下內容:

① 一系列的機器學習問題需要一個合適的關於數據的背後表徵。如決策時希望知道決策的影響,基於此才能做出最優的決策;在領域適應/泛化中希望知道數據的分佈發生了怎樣的變化,從而做出最優預測;在強化學習中,agent與環境的互動以及互動所帶來的reward 本身就是一個因果問題;推薦系統也是一個因果問題,因為user 是改變的;可信賴AI、可解釋AI 以及公平性都和因果表徵有關。

② 因果性,包括隱變量,在一定條件下是可以從資料中完全恢復出來的。可以真正透過數據來理解背後過程的性質,然後加以使用。

③ 因果關係不是神秘的。只要有數據,只要假設是適當的,就能找出背後的因果性。這裡所做的假設最好是可以驗證的。

整體來說,因果表徵學習有非常大的應用前景,同時有許多方法也亟待開發,需要大家共同努力。

以上是CMU張坤:因果表徵技術最新進展的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除