在等效互動可解釋性理論體系下,我們的團隊在先前的研究中已經成功發表了20 篇CCF-A 類和機器學習頂級會議ICLR 論文,我們已經從理論和實驗上充分解答了上述問題。
。大量不同的交互作用來表達。同一個神經網路在不同的樣本上建模了不同複雜度的交互關係,而不同複雜度的交互作用往往對應著不同泛化能力。難以泛化到測試樣本上(測試樣本上不會觸發相同的交互作用),代表過擬合表徵,而神經網路建模的低階(簡單)交互作用往往代表泛化性較強的表徵,具體詳細研究見[1]。圖 3:(a)傳統的泛化性分析總是假設單一樣本整體是高維度空間的一個點。 (b)實際上神經網路對單一樣本的表徵是 mixture model 的形式,神經網路在單一樣本會建模簡單交互作用(可泛化的交互作用)和複雜交互作用(不可泛化的交互作用)。 和一個輸入樣本,它包含個輸入變量,我們用集合表示這些輸入變數的全集。令表示 DNN 在樣本上的一個標量輸出。對於一個面向分類任務的神經網絡,我們可以從不同角度來定義其標量輸出。例如,對於多類別分類問題,可以定義為,也可以定義為 softmax 層之前該樣本真實標籤所對應的標量輸出。這裡,表示真實標籤的分類機率。這樣,針對每個子集,我們可以用下面公式來定義中所有輸入變數之間 “等效與交互” 和 “等效或交互”。
如圖 4(a)所示,我們可以這樣理解上述與或交互作用:我們可以認為與等效交互作用表示神經網路所編碼的內輸入變數之間的 「與關係」。例如,給定一個輸入句子,神經網路可能會在之間建模一個交互,使得產生一個推動神經網路輸出 「傾盆大雨」 的數值效用。如果中的任何輸入變數被遮擋,則該數值效用將從神經網路的輸出中移除。類似地,等效或交互作用表示神經網路所建模的內輸入變數之間的 「或關係」。例如,給定一個輸入句子,只要中的任一個字出現,就會推動神經網路的輸出負面情緒分類。 神經網路所建模的等效交互作用滿足 「理想概念」 的三條公理性準則,即無限擬合性、稀疏性、樣本間遷移性。
- 無限擬合性:如圖4,5 所示,對於任意遮蔽樣本,神經網路在樣本上的輸出可以用不同交互概念的效用總和來擬合。即,我們可以建構出一個基於交互作用的 logical model,無論我們如何遮擋輸入樣本,這個 logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態下的輸出值。
- 稀疏性:分類任務導向的神經網路往往只建模少量的顯著交互作用概念,而大部分互動概念都是數值效用都接近0的噪音。
- 樣本間遷移性:交互在不同樣本間是可遷移的,即神經網路在(同一類別的)不同樣本上建模的顯著交互概念往往有很大的重合。
圖4:神經網路的複雜的推理邏輯可以被基於少量交互作用的邏輯模型準確擬合。每個交互作用都是衡量神經網路建模特定輸入變數集合之間非線性關係的測量指標。當且僅當集合中變數同時出現時才會觸發與交互,並為輸出貢獻數值分數,集合中任意變數出現時會觸發或交互。
圖5:神經網路在任意的遮蔽樣本上的輸出可以用不同交互概念的效用之和來擬合,即我們可以構造出一個基於交互的logical model,無論我們如何遮蔽輸入樣本,即使窮舉個輸入單元上種完全不同的遮擋方式,這個logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態下的輸出值。 5.1 發現神經網路在訓練過程中互動變化的兩階段現象在這篇知乎文章中,我們關注神經網路解釋領域的一個根本問題,即如何從一個解析分析的角度去嚴格預測出神經網路在訓練過程中泛化能力的變化情況,並且精確的分析神經網路從欠擬合到過擬合的整個動態變化過程及其背後的根本原因。 首先,我們將交互作用的階數(複雜度)定義為交互作用中的輸入變數的數量,。我們團隊先前的工作發現神經網路在某個特定樣本所建模的「與或交互作用」 的複雜度直接決定了神經網路在這個樣本的泛化能力[1],即神經網路建模的高階的(大量輸入單元之間的)「與或互動」 往往有較差的泛化能力,而低階的(少量輸入單元之間的)「與或互動」 則具有較強的泛化能力。 因此,本篇研究的第一步是去預測出神經網路在訓練過程中不同時間點所建模的不同階「與或交互」 的複雜度的一個解析解,即我們可以透過神經網路在不同時間點所建模的不同階「與或交互」 的分佈去解釋神經網路在不同階段的泛化能力。交互的泛化能力的定義與神經網路整體泛化能力的定義請見 “5.2 神經網路所建模交互的階數和其泛化能力的關係” 章節。 我們提出兩個指標來表示不同階(複雜度)的交互作用的強度的分佈。具體來說,我們用來衡量所有階正顯著交互作用的強度,以來衡量所有階負顯著交互作用的強度,其中和表示顯著交互作用的集合, 表示顯著交互作用的閾值。 圖6:從訓練不同輪次的神經網路中提取的不同階交互強度和。在不同資料集上、不同任務上訓練的不同的神經網路的訓練過程都存在兩階段現象。前兩個選定時間點屬於第一階段,而後兩個時間點屬於第二階段。恰恰在進入神經網路訓練過程的第二階段不久,神經網路的測試損失和訓練損失之間的 loss gap 開始顯著上升(見最後一列)。這顯示神經網路訓練的兩階段現象與模型 loss gap 的變化在時間上是 “對齊” 的。更多實驗結果請參考論文。
- 在神經訓練訓練之前,初始化的神經網路主要編碼中階交互,很少編碼高階和低階交互,並且不同階交互的分佈看起來呈現「紡錘形」。假設具有隨機初始化參數的神經網路建模的是純噪聲,我們在“5.4 理論證明兩階段現象” 章節證明了具有隨機初始化參數的神經網路建模的不同階的交互的分佈呈現“紡錘形”,即僅建模少量的低階和高階交互,大量建模中階交互。
- 在神經網路訓練的第一階段,神經網路編碼的高階和中階交互作用的強度逐漸減弱,而低階交互作用的強度逐漸增強。最終,高階和中階交互作用逐漸被消除,神經網路只編碼低階交互作用。
- 在神經網路訓練的第二階段,神經網路在訓練過程中編碼的交互階數(複雜度)逐漸增加。在逐漸學習更高複雜度的交互作用的過程中,神經網路過度擬合的風險也逐漸提高。
上述的兩階段現象廣泛存在於不同結構的神經網路訓練於不同任務上的不同資料集的訓練過程中。我們在影像資料集(CIFAR-10 資料集、MNIST 資料集、CUB200-2011 資料集(使用從圖片中裁切出來的鳥類影像)和Tiny-ImageNet 資料集)上訓練了VGG-11/13/16和 AlexNet。我們在 SST-2 資料集上訓練了用於情緒語義分類 Bert-Medium/Tiny 模型,我們在 ShapeNet 資料集中訓練 DGCNN 來分類的 3D 點雲資料。上圖顯示了不同的神經網路在不同訓練時期提取的不同階的顯著交互作用的分佈。我們在這些神經網路的訓練過程中都發現了兩階段現象,更多實驗結果及細節請參考論文。 5.2 神經網路所建模交互作用的階數和其泛化能力的關係 我們團隊先前的工作已經發現了神經網路所建模交互作用的階數和其泛化能力的關係,即高階交互作用比低階交互作用具有更差的泛化能力[1]。某個具體交互作用的泛化性有清楚的定義 —— 如果一個交互作用同時在訓練樣本和測試樣本中頻繁的被神經網路所建模,則這個交互作用具有較好的泛化能力。在本篇知乎文章中,介紹了兩個實驗來證明高階交互作用具有較差的泛化能力,低階交互作用具有較強的泛化能力。 實驗一:觀察在不同資料集上訓練的不同神經網路所建模的交互作用的泛化性。這裡我們用被測試集所觸發的交互的分佈和被訓練集所觸發的交互的分佈的 Jaccard 相似性來度量交互的泛化性。具體來說,給定一個包含個輸入變數的輸入樣本,我們將從輸入樣本提取到的階交互向量化,其中表示個階交互。然後,我們計算分類任務中所有類別為的樣本中提取到的階的平均交互作用向量,表示為,其中表示類別為的樣本的集合。接下來,我們計算從訓練樣本中提取的階的平均交互向量與從測試樣本中提取的階的平均交互向量之間的Jaccard 相似性,以衡量分類任務中類別為的樣本的階交互的泛化能力,即:
其中,和將兩個維交互向量投影到兩個維的非負向量上,以便計算Jaccard 相似性。對於某一階的交互,如果此階交互普遍展現出較大的 Jaccard 相似性,則表示這一階交互具有較強的泛化能力。 我們進行了實驗計算不同階交互。我們測試了在 MNIST 資料集上訓練的 LeNet、在 CIFAR-10 資料集上訓練的 VGG-11、在 CUB200-2011 資料集上訓練的 VGG-13,以及在 Tiny-ImageNet 資料集上訓練的 AlexNet。為了減少計算成本,我們僅計算了前 10 個類別的 Jaccard 相似性的平均值。如圖 7 所示,隨著交互階數的增加,交互作用的 Jaccard 相似性不斷下降。因此,這驗證了高階交互作用比低階交互作用具有更差的泛化能力。 中使用低階交互具有相對較高 Jaccard 相似性表明低階交互具有較強的泛化能力。
實驗二:比較神經網路在正常樣本和 OOD 樣本建模的交互作用的分佈。我們比較了從正常樣本中提取的交互與從分佈外 (OOD) 樣本中提取的交互,以檢查神經網路在 OOD 樣本上是否建模更多的高階交互作用。我們將少量訓練樣本的分類標籤設定為錯誤標籤。這樣,資料集中的原始樣本可以視為正常樣本,而一些帶有錯誤標籤的樣本則對應於 OOD 樣本,這些 OOD 樣本可能會導致神經網路的過度擬合。我們在 MNIST 資料集和 CIFAR-10 資料集上分別訓練了 VGG-11 和 VGG-13。圖 8 比較了從正常樣本中提取的交互作用的分佈和從 OOD 樣本中提取的交互作用的分佈。我們發現,VGG-11 和 VGG-13 在分類 OOD 樣本時建模了更多複雜的交互作用(高階交互作用),而在分類正常樣本時則使用了較低階的交互作用。這驗證了高階交互作用的泛化能力通常弱於低階交互作用。
中擷取中擷取中的中提取 (OOD 圖 8:比較從正常樣本中提取的交互與從中提取的交互)。神經網路通常在 OOD 樣本上建模的更高階的交互作用。 5.3 兩階段現象與神經網路訓練過程loss gap 的變化相對齊我們發現上述兩階段現象可以充分錶示神經網路泛化性動力學。一個很有趣的現像是神經網路訓練過程中的兩階段現象和神經網路在測試集和訓練集的 loss gap 的變化在時間上是對齊的。訓練損失和測試損失之間的 loss gap 是衡量模型過度適合程度的最廣泛使用的指標。圖 6 顯示了不同的神經網路在訓練工程的測試損失和訓練損失之間的 loss gap 的曲線,也顯示了從不同訓練時期的神經網路中提取的交互分佈。我們發現當神經網路訓練過程中測試損失和訓練損失之間的 loss gap 開始增大時,神經網路恰好也進入訓練的第二階段。這顯示神經網路訓練的兩階段現象與模型 loss gap 的變化在時間上是 “對齊” 的。 我們可以這樣理解上述現象:在訓練過程開始前,初始化的神經網路所建模的交互全部表示隨機噪聲,並且不同階交互的分佈看起來像“紡錘形”。在神經網路訓練的第一階段,神經網路逐漸消除中階和高階的交互,並學習最簡單的(最低階的)交互。然後,在神經網路訓練的第二階段,神經網路建模了階數逐漸增大的交互作用。由於我們在「5.2 神經網路所建模交互的階數和其泛化能力的關係」 章節中的兩個實驗驗證了高階交互通常比低階交互具有更差的泛化能力,因此我們可以認為在神經網路訓練的第二階段,DNN 首先學習了泛化能力最強的交互,然後逐漸轉向更複雜但泛化能力較弱的交互。最終一些神經網路逐漸過度擬合,並編碼了大量中階和高階交互作用。 兩科證明神經網路訓練過程的理論證明神經網路訓練過程的理論證明階段現象共分為三個部分,第一部分我們需要證明隨機初始化的神經網路在訓練過程開始之前建模的交互的分佈呈現“紡錘形”,即很少建模高階和低階交互,主要建模中階交互作用。第二部分證明神經網路在訓練的第二階段在建模階數逐漸增大的交互作用。第三部分證明神經網路在訓練的第一階段逐漸消除中階和高階交互,學習最低價的交互。 1. 證明初始化神經網路建模的 「紡錘形」 交互分佈。 由於隨機初始化的隨機網路在訓練過程開始之前建模的都是噪聲,所以我們假設隨機初始化的神經網路建模的交互的服從平均值為,變異數為的常態分佈。在上述假設下,我們能夠證明初始化的神經網路建模的交互的強度和的分佈呈現 “紡錘形”,即很少建模高階和低階交互,主要建模中階交互。
2. 證明神經網路訓練的第二階段的交互變化動態過程。 在進入正式的證明之前,我們需要做以下的預備工作。首先,我們參考[5, 6] 的做法,將神經網路在特定樣本上的inference 改寫為不同交互作用觸發函數的加權和:其中,為標量權重,滿足。而函數為交互觸發函數,在任一遮擋樣本上都滿足。函數的具體形式可以由泰勒展開推導得到,可參考論文,這裡不做贅述。
根據上述改寫形式,神經網路在特定樣本上的學習可近似看成是對交互觸發函數的權重的學習。進一步地,實驗室的前期工作[3] 發現在同一任務上充分訓練的不同的神經網路往往會建模相似的交互,所以我們可以將神經網路的學習看成是對一系列潛在的ground truth 交互的擬合。由此,神經網路在訓練到收斂時建模的交互作用可以看成是最小化下面的目標函數時得到的解:其中表示神經網路需要擬合的一系列潛在的ground truth 互動。 和則分別表示將所有權重拼起來得到的向量和將所有交互觸發函數的值拼起來得到的向量。
可惜的是,上述建模雖然能得到神經網路訓練到收斂時的交互,但是無法很好地刻畫神經網路訓練過程中學習交互的動態過程。這裡引入我們的核心假設:我們假設初始化神經網路的參數上包含了大量噪聲,而這些噪聲的量級在訓練過程中逐步變小。而進一步地,參數上的噪聲會導致交互觸發函數上的噪聲,且該噪聲隨著交互階數指數級增長 (在 [5] 中已有實驗上的觀察和驗證) 。我們將有雜訊下的神經網路的學習建模如下:
其中噪音滿足。且隨著訓練進行,噪音的變異數逐漸變小。 在給定的噪音量級的情況下最小化上述損失函數,可得到最優交互權重的解析解,如下圖的定理所示。
我們發現,隨著訓練進行(即噪音量級變小),中低階交互強度和高階交互強度的比值逐漸減少(如下面的定理)。這解釋了訓練的第二階段中神經網路逐漸學到更高階的互動的現象。
另外,我們對上述結論進一步做了實驗驗證。給定一個具有 n 個輸入單元的樣本,指標,其中, 可以用來近似測量第 k 階交互作用和第 k+1 階交互強度的比值。在下圖中,我們可以發現,在不同的輸入單元個數 n 和不同的階數 k 下,該比值都會隨著的減少而逐漸減少。
圖9:在不同的輸入單元個數n 和不同的階數k 下,第k 階交互作用和第k+1 階交互強度的比值都會隨著雜訊量級的減少而逐漸減少。這說明隨著訓練進行(即逐漸變小),低階交互強度與高階交互強度的比值逐漸變小,神經網路逐漸學到更高階的交互作用。 最後,我們比較了在不同噪音量級下的理論交互值在各階數上的分佈和實際訓練過程中各階交互的分佈,發現理論交互分佈可以很好地預測實際訓練中各時間點的交互強度分佈。
圖10:比較理論交互分佈(藍色直方圖)與實際互動分佈 (橘色直方圖)。在訓練第二階段的不同時間點,理論交互分佈都可以很好地預測和匹配實際交互作用的分佈。更多結果請參見論文。 3. 證明神經網路訓練的第一階段的交互變化動態過程。 如果說訓練的第二階段中交互的動態變化可以解釋為權重的最優解在噪音逐漸減小時的變化,那麼第一階段就可認為是交互從初始化的隨機交互逐漸收斂到最優解的過程。 路漫漫其修遠兮,我們團隊是做神經網路可解釋性的第一性原理,我們希望在更多的方面把這個理論做紮實,能夠嚴格證明等效交互是符號化的解釋,並且能夠解釋神經網絡的泛化性、魯棒性,同時證明神經網絡表徵瓶頸,統一12 種提升神經網絡對抗遷移性的方法和解釋14種重要性估計方法。我們後面會做出更紮實的工作,進一步完善理論體系。 [1] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining powergeneization poweral of a aww dnn using interactive concepts. AAAI, 2024[2] Arthur Jacot, Franck Gabriel, Clement Hongler. Neural tangent kernel: Convergence and generalization in neural, 20. Neur. 🎜>[3] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023[4] Wen Shen Le , Yuxiao Yang, Mingjie Li, and Quanshi Zhang. Can the Inference Logic of Large Language Models be Disentangled into Symbolic Concepts?[5] Qihan Ren, Huyui Deng, Yu Lou, and Quanshi Zhang. Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts. ICML, 2023[6] Dongrui Liu, Huiqi Deng, Xu and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023等效交互理論體系
[1] Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Ziwei Yang, Zheyang Li, and Quanshi Zhang. Unifying Fourteen Post-Hoc Attribution Methods With Taylor Interactions. IEEE Transactions on Patterng Analysis and Machinelibution Method T-PAMI), 2024.
[2] Xu Cheng, Lei Cheng, Zhaoran Peng, Yang Xu, Tian Han, and Quanshi Zhang. Layerwise Change of Knowledge in Neural Networks. ICML , 2024.
[3] Qihan Ren, Jiayang Gao, Wen Shen, and Quanshi Zhang. Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in AI Models4LR, 2024LR .
[4] Lu Chen, Siyu Lou, Benhao Huang, and Quanshi Zhang. Defining and Extracting Generalizable Interaction Primitives from DNNs. ICLR, 2024.
[5] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining Generalization Power of a DNN Using Interactive Concepts. AAAI, 2024.
[6] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang, and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023.
[7] Quanshi Zhang, Jie Ren, Ge Huang, Ruiming Cao, Ying Nian Wu, and Song-Chun Zhu. Mining Interpretable AOG Representations from Convolutional Networks via Active Question Answering. IEEE Transactions on Machine Patternsis and Intelligence (IEEE T-PAMI), 2020.
[8] Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang, and Quanshi Zhang. A Unified Approach to Interpreting and Boosting Adversarial Transferability. ICLR, 2021.
[9] Hao Zhang, Sen Li, Yinchao Ma, Mingjie Li, Yichen Xie, and Quanshi Zhang. Interpreting and Boosting Dropout a from Game- Theoretic View. ICLR, 2021.
[10] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023.
>[11] Lu Chen, Siyu Lou, Keyan Zhang, Jin Huang, and Quanshi Zhang. HarsanyiNet: Computing Accurate Shapley Values in a Single Forward Propagation. ICML, 2023.
[12] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, and Quanshi Zhang. Bayesian Neural Networks Avoid Encoding Perturbation-Sensitive and Complex Concepts. ICML, 2023.
[15] Jie, Die 🎜>[15] Jie, Die Yisen Wang, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi, and Quanshi Zhang. A Unified Game-Theoretic Interpretation of Adversarial Robustness. NeurIPS, 2021.
[16] Wen Shen, Qihan Ren, Dongrui Liu, and Quanshi Zhang. Interpreting Representation Quality of DNNs for 3D Point Cloud Processing. NeurIPS, 2021.
[ Xin Wang, Shuyun Lin, Hao Zhang, Yufei Zhu, and Quanshi Zhang. Interpreting Attributions and Interactions of Adversarial Attacks. ICCV, 2021.
[18] Wen S, Shihihu Huang, Binbin Zhang, Panyue Chen, Ping Zhao, and Quanshi Zhang. Verifiability and Predictability: Interpreting Utilities of Network Architectures for 3D Point Cloud Processing. CVPR, 2021. Zhang, Yichen Xie, Longjie Zheng, Die Zhang, and Quanshi Zhang. Interpreting Multivariate Shapley Interactions in DNNs. AAAI, 2021.[20] Zhang Zhang, Hu Xiaoyi Bao, Da Huo, Ruizhao Chen, Xu Cheng, Mengyue Wu, and Quanshi Zhang. Building Interpretable Interaction Trees for Deep NLP Models. AAAI, 2021.