首頁 >科技週邊 >人工智慧 >可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

王林原創: 2024-08-05 15:55:55965瀏覽

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者為張俊鵬、任啟涵、張拳石，其中張俊鵬是張拳石老師的準入學博士，任開涵是張拳石老師的博士生。

本文首先簡單回顧了『等效交互作用可解釋性理論體系』（20 篇CCF- A 及ICLR 論文），並在此基礎上，嚴格推導並預測出神經網路在訓練過程中其概念表徵及其泛化性的動力學變化，即在某種程度上，我們可以解釋在訓練過程中神經網路在任意時間點的泛化性及其內在根因。

一、前言

長期以來，我們團隊一直在思考性團隊領域的一個終極問題，即什麼是解釋性領域的第一原理？所謂第一原理，目前沒有一個廣為接受的框架，世上本無路，我們需要逐漸定義這樣一個路。我們需要在一個新的理論體系中，提出大量的公理性要求，得出一個可以從不同的角度全方位精確嚴謹解釋神經網路內在機理的理論。一套理論系統能嚴謹解釋神經網路的各個面向才叫「第一原理」。

如果你真的在嚴謹地做“科學”，那麼第一原理一定不是想像中簡單，而是一個複雜的體系，需要研究照顧到深度學習中各個面向複雜的現象。當然，如果你主觀上不願意或不相信一個理論需要夠嚴謹，那麼研究就會變得簡單千萬倍。就像物理學的標準模型一定比牛頓定律複雜，取決於你希望走哪條路。

沿著這個方向，我們團隊獨立從頭開始建構了『等效交互可解釋性理論體系’，並基於此理論，從三個角度來解釋神經網路的內在機制。

1. 語義解釋的理論基礎：數學證明神經網路的決策邏輯是否可以被少量符號化邏輯所充分覆蓋（充分解釋）。『證明神經網路的決策邏輯是否可以被有限符號化邏輯解釋清楚』這個命題是解釋神經網路的根本命題。如果此命題被證偽，則從根本上講，神經網路的可解釋性將是無望的，所有的解釋性演算法只能提供近似的解讀，而無法精確地覆蓋所有的決策邏輯。幸運的是，我們找到了在大部分應用中神經網路都可以滿足的面向遮擋魯棒性的三個常見的條件，並且數學證明了滿足這三個條件的神經網路的決策邏輯可以被寫成符號化的交互概念。

請參閱https://zhuanlan.zhihu.com/p/693747946

2.效能指標背後的可證明、可驗證的根因：將神經網路泛化性和魯棒性等終極效能指標的根因拆分具體少數細節邏輯。對神經網路效能（穩健性、泛化性）的解釋是神經網路可解釋性領域的另一個重大問題。然而，目前人們普遍認為神經網路表現是對神經網路整體的描述，而神經網路無法像人類一樣將自己的分類判斷拆解成具象化的、少量的決策邏輯。在這方面，我們給了不一樣的觀點 —— 將表現指標與具象化的互動之間建立起數學關係。我們證明了1. 等效交互的複雜度可以直接決定神經網路的對抗魯棒性/ 遷移性，2. 交互的複雜度決定了神經網路的表徵能力，3. 並解釋神經網路的泛化能力[ 1]，和4. 解釋神經網路的表徵瓶頸。

請參考1：https://zhuanlan.zhihu.com/p/369883667
參見🎜>參見2：https://zhuanlan.zhihu.com/p/361686461
參考3：https://zhuanlan.zhihu.com/p/704760363
請參閱4：https://zhuanlan.zhihu.com/p/468569001

3. 統一工程性深度學習演算法。由於缺乏基礎理論的支撐，目前深度學習演算法大都是經驗的、工程的。可解釋性領域的第一原理應該可以承擔起將前人的大量工程經驗總結為科學規律的任務。在等效交互可解釋性理論體系下，我們團隊既證明了 14 種不同的輸入重要性歸因演算法的計算本質在數學上都可以統一寫成對交互作用的再分配形式。此外，我們也統一了12 種提升對抗遷移性的演算法，證明了所有提升對抗遷移性演算法的一個公共機制是降低對抗擾動之間的交互效用，實現了對神經網路可解釋性方向大部分工程性算法的理論凝練。

請參考1：https://zhuanlan.zhihu.com/p/610774894
參見2：https://zhuanlan.zhihu.com/p/546433296

在等效互動可解釋性理論體系下，我們的團隊在先前的研究中已經成功發表了20 篇CCF-A 類和機器學習頂級會議ICLR 論文，我們已經從理論和實驗上充分解答了上述問題。

二、本文研究概述

沿著上述理論框架，在這篇這篇理論框架，在這篇這篇文章框架，在這篇在知乎文章中，我們希望精確地解釋出神經網路訓練過程中泛化性的變化規律，具體地涉及兩篇論文。

1.Junpeng Zhang, Qing Li, Liang Lin, Quanshi Zhang，「Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features”，in arXiv: 2405.10262
2.Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang Symbolic Interactions」 in arXiv:2407.19198

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

^{圖 1：兩階段現象的示意圖。在第一階段，神經網路逐漸消除中高階交互，學習低階交互；在第二階段，神經網路逐漸建模階數不斷增大的交互。當神經網路訓練過程中測試損失和訓練損失之間的 loss gap 開始增大時，神經網路恰好也進入訓練的第二階段。}

我們希望在等效交互框架裡提出新的理論，精確預測出神經網路每一個時間點上神經網路所學到的互動概念的數量、複雜度，以及泛化性變化的動力學規律（如圖1 所示）。具體地，我們希望證明出兩方面結論。

第一，基於前人的證明（一個神經網路的決策邏輯可以被嚴格解構表示為幾十個交互概念效用的和的形式），進一步嚴格推導出在整個訓練過程中，神經網路所建模的交互效用的變化動力學過程－ 即理論需精確預測出在不同訓練階段，神經網路所建模的交互概念的分佈的變化— — 推導出哪些交互作用會在哪個時間點上被學習到。

第二，尋找充分的證據，證明所推導的交互複雜度的變化規律客觀反映出神經網路在全訓練週期中泛化性變化的規律。

綜上兩點，我們希望具體徹底解釋清楚神經網路的泛化性變化的內在根因。

與前人的關係：當然大家可能第一反應想到神經正切核（NTK）[2]，但是神經正切核只是把參數的變化曲線解了出來，而沒辦法進一步深入到決策邏輯層面進行解釋，沒有將神經網路建模的概念表徵與其泛化性的關係建立起來，對泛化性的分析依然停留在特徵空間分析的層面，而沒有在【符號化概念邏輯】與【泛化性】之間建立起嚴格的關係。

三、兩大研究背景

誤會1：神經網路的第一性表徵是『等效交互作用』，而不是神經網路的參數和結構。單純從結構層面分析神經網路是人們對神經網路泛化根本表徵的誤解。目前大部分神經網路泛化性研究主要著重在神經網路的結構、特徵、以及資料。人們認為不同的神經網路結構就自然對應不同的函數，並且自然展現出不同的效能。

但是，事實上，如圖 2 所示，結構的差異只是神經網路表徵的表面形式。除去有明顯缺陷的對性能有明顯影響的神經網絡，所有其他可以實現SOTA 性能的具有不同結構的神經網絡往往都建模了相似的等效交互表徵，即不同結構的高性能神經網絡在等效交互表徵上往往都是殊途同歸的 [3, 4]。雖然神經網路其中層特徵內部是複雜的混亂的，雖然不同神經網路所建模的特徵向量大相徑庭，雖然神經網路中單個神經元往往建模了相對比較混亂的語義（不是嚴格清晰的語義），但是神經網路作為一個整體，我們從理論上證明神經網路的所建模的交互關係是稀疏的符號化的（而不是特徵的稀疏性，具體見“四、交互的定義” 章節），而且面向相同任務的完全不同的神經網路往往建模了相似的交互關係。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

^{圖 2：不同結構的神經網路所建模的等效交互作用往往是殊途同歸的。對於一個相同的輸入句子，面向兩個相同任務的兩個完全不同的神經網路建模往往相似的交互作用。}

由於不同神經網路的參數和訓練樣本不一樣，兩個神經網路中沒有任何一個神經元在表徵上具有嚴格的一一對應關係，且每一個神經元往往建模不同語意的混合模式。相較之下，如上段分析，神經網路所建模的交互表徵其實是不同神經網路表徵中的不變量。因此，我們有理由認為神經網路根本表徵是等效交互，而不是其載體（參數和訓練樣本），符號化交互表徵可能代表了知識表徵的第一原理（被交互的稀疏性定理、無限擬合性定理、以及殊途同歸現象所保證，見「四、交互的定義」章節，具體詳細研究見以下知乎文章。 zhuanlan.zhihu.com/p/633531725

誤會2：神經網路的泛化性問題是一個混合模型問題，而不是一個高維度空間的向量

。大量不同的交互作用來表達。同一個神經網路在不同的樣本上建模了不同複雜度的交互關係，而不同複雜度的交互作用往往對應著不同泛化能力。難以泛化到測試樣本上（測試樣本上不會觸發相同的交互作用），代表過擬合表徵，而神經網路建模的低階（簡單）交互作用往往代表泛化性較強的表徵，具體詳細研究見[1]。

^{圖 3：（a）傳統的泛化性分析總是假設單一樣本整體是高維度空間的一個點。（b）實際上神經網路對單一樣本的表徵是 mixture model 的形式，神經網路在單一樣本會建模簡單交互作用（可泛化的交互作用）和複雜交互作用（不可泛化的交互作用）。}

四、互動的定義

和一個輸入樣本

，它包含

個輸入變量，我們用集合可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

表示這些輸入變數的全集。令可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

表示 DNN 在樣本可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

上的一個標量輸出。對於一個面向分類任務的神經網絡，我們可以從不同角度來定義其標量輸出。例如，對於多類別分類問題，可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

可以定義為

，也可以定義為 softmax 層之前該樣本真實標籤所對應的標量輸出。這裡，可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

表示真實標籤的分類機率。這樣，針對每個子集

，我們可以用下面公式來定義

中所有輸入變數之間 “等效與交互” 和 “等效或交互”。可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

如圖 4（a）所示，我們可以這樣理解上述與或交互作用：我們可以認為與等效交互作用表示神經網路所編碼的可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

內輸入變數之間的「與關係」。例如，給定一個輸入句子可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

,神經網路可能會在

之間建模一個交互，使得可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

產生一個推動神經網路輸出「傾盆大雨」的數值效用。如果可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

中的任何輸入變數被遮擋，則該數值效用將從神經網路的輸出中移除。類似地，等效或交互作用可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

表示神經網路所建模的可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

內輸入變數之間的「或關係」。例如，給定一個輸入句子可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

，只要

中的任一個字出現，就會推動神經網路的輸出負面情緒分類。

神經網路所建模的等效交互作用滿足「理想概念」的三條公理性準則，即無限擬合性、稀疏性、樣本間遷移性。

無限擬合性：如圖4，5 所示，對於任意遮蔽樣本，神經網路在樣本上的輸出可以用不同交互概念的效用總和來擬合。即，我們可以建構出一個基於交互作用的 logical model，無論我們如何遮擋輸入樣本，這個 logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態下的輸出值。
稀疏性：分類任務導向的神經網路往往只建模少量的顯著交互作用概念，而大部分互動概念都是數值效用都接近0的噪音。
樣本間遷移性：交互在不同樣本間是可遷移的，即神經網路在（同一類別的）不同樣本上建模的顯著交互概念往往有很大的重合。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

^{圖4：神經網路的複雜的推理邏輯可以被基於少量交互作用的邏輯模型}^{準確擬合。每個交互作用都是衡量神經網路建模特定輸入變數集合}^{之間非線性關係的測量指標。當且僅當集合中變數同時出現時才會觸發與交互，並為輸出貢獻數值分數}^{，集合中任意變數出現時會觸發或交互。}

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

^{圖5：神經網路在任意的遮蔽樣本上的輸出可以用不同交互概念的效用之和來擬合，即我們可以構造出一個基於交互的logical model，無論我們如何遮蔽輸入樣本，即使窮舉個輸入單元上種完全不同的遮擋方式，這個logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態下的輸出值。}

五、新的發現與證明

5.1 發現神經網路在訓練過程中互動變化的兩階段現象

在這篇知乎文章中，我們關注神經網路解釋領域的一個根本問題，即

如何從一個解析分析的角度去嚴格預測出神經網路在訓練過程中泛化能力的變化情況，並且精確的分析神經網路從欠擬合到過擬合的整個動態變化過程及其背後的根本原因。

首先，我們將交互作用的階數（複雜度）定義為交互作用中的輸入變數的數量，

。我們團隊先前的工作發現神經網路在某個特定樣本所建模的「與或交互作用」的複雜度直接決定了神經網路在這個樣本的泛化能力[1]，即神經網路建模的高階的（大量輸入單元之間的）「與或互動」往往有較差的泛化能力，而低階的（少量輸入單元之間的）「與或互動」則具有較強的泛化能力。可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

因此，本篇研究的第一步是去可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

預測出神經網路在訓練過程中不同時間點所建模的不同階「與或交互」的複雜度的一個解析解，即我們可以透過神經網路在不同時間點所建模的不同階「與或交互」的分佈去解釋神經網路在不同階段的泛化能力

。交互的泛化能力的定義與神經網路整體泛化能力的定義請見 “5.2 神經網路所建模交互的階數和其泛化能力的關係” 章節。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

我們提出兩個指標來表示不同階（複雜度）的交互作用的強度的分佈。具體來說，我們用來衡量所有階正顯著交互作用的強度，以來衡量所有階負顯著交互作用的強度，其中和表示顯著交互作用的集合，表示顯著交互作用的閾值。

^{圖6：從訓練不同輪次的神經網路中提取的不同階交互強度}^和^{。在不同資料集上、不同任務上訓練的不同的神經網路的訓練過程都存在兩階段現象。前兩個選定時間點屬於第一階段，而後兩個時間點屬於第二階段。恰恰在進入神經網路訓練過程的第二階段不久，神經網路的測試損失和訓練損失之間的 loss gap 開始顯著上升（見最後一列）。這顯示神經網路訓練的兩階段現象與模型 loss gap 的變化在時間上是 “對齊” 的。更多實驗結果請參考論文。}

如圖6 所示，神經網路的兩階段現象具體表現為：

在神經訓練訓練之前，初始化的神經網路主要編碼中階交互，很少編碼高階和低階交互，並且不同階交互的分佈看起來呈現「紡錘形」。假設具有隨機初始化參數的神經網路建模的是純噪聲，我們在“5.4 理論證明兩階段現象” 章節證明了具有隨機初始化參數的神經網路建模的不同階的交互的分佈呈現“紡錘形”，即僅建模少量的低階和高階交互，大量建模中階交互。
在神經網路訓練的第一階段，神經網路編碼的高階和中階交互作用的強度逐漸減弱，而低階交互作用的強度逐漸增強。最終，高階和中階交互作用逐漸被消除，神經網路只編碼低階交互作用。
在神經網路訓練的第二階段，神經網路在訓練過程中編碼的交互階數（複雜度）逐漸增加。在逐漸學習更高複雜度的交互作用的過程中，神經網路過度擬合的風險也逐漸提高。

上述的兩階段現象廣泛存在於不同結構的神經網路訓練於不同任務上的不同資料集的訓練過程中。我們在影像資料集（CIFAR-10 資料集、MNIST 資料集、CUB200-2011 資料集（使用從圖片中裁切出來的鳥類影像）和Tiny-ImageNet 資料集）上訓練了VGG-11/13/16和 AlexNet。我們在 SST-2 資料集上訓練了用於情緒語義分類 Bert-Medium/Tiny 模型，我們在 ShapeNet 資料集中訓練 DGCNN 來分類的 3D 點雲資料。上圖顯示了不同的神經網路在不同訓練時期提取的不同階的顯著交互作用的分佈。我們在這些神經網路的訓練過程中都發現了兩階段現象，更多實驗結果及細節請參考論文。

5.2 神經網路所建模交互作用的階數和其泛化能力的關係

我們團隊先前的工作已經發現了神經網路所建模交互作用的階數和其泛化能力的關係，即高階交互作用比低階交互作用具有更差的泛化能力[1]。某個具體交互作用的泛化性有清楚的定義 —— 如果一個交互作用同時在訓練樣本和測試樣本中頻繁的被神經網路所建模，則這個交互作用具有較好的泛化能力。在本篇知乎文章中，介紹了兩個實驗來證明高階交互作用具有較差的泛化能力，低階交互作用具有較強的泛化能力。

實驗一：觀察在不同資料集上訓練的不同神經網路所建模的交互作用的泛化性。這裡我們用被測試集所觸發的交互的分佈和被訓練集所觸發的交互的分佈的 Jaccard 相似性來度量交互的泛化性。具體來說，給定一個包含可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

個輸入變數的輸入樣本可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

，我們將從輸入樣本

提取到的

階交互向量化

，其中

表示

個

階交互。然後，我們計算分類任務中所有類別為可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

的樣本中提取到的

階的平均交互作用向量，表示為可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

，其中

表示類別為

的樣本的集合。接下來，我們計算從訓練樣本中提取的階的平均交互向量可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

與從測試樣本中提取的可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

階的平均交互向量

之間的Jaccard 相似性，以衡量分類任務中類別為可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

的樣本的

階交互的泛化能力，即：

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

其中，

和

將兩個

維交互向量投影到兩個可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

維的非負向量上，以便計算Jaccard 相似性。對於某一階的交互，如果此階交互普遍展現出較大的 Jaccard 相似性，則表示這一階交互具有較強的泛化能力。

我們進行了實驗計算不同階交互可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

。我們測試了在 MNIST 資料集上訓練的 LeNet、在 CIFAR-10 資料集上訓練的 VGG-11、在 CUB200-2011 資料集上訓練的 VGG-13，以及在 Tiny-ImageNet 資料集上訓練的 AlexNet。為了減少計算成本，我們僅計算了前 10 個類別的 Jaccard 相似性的平均值可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

。如圖 7 所示，隨著交互階數的增加，交互作用的 Jaccard 相似性不斷下降。因此，這驗證了高階交互作用比低階交互作用具有更差的泛化能力。

^{中使用低階交互具有相對較高 Jaccard 相似性表明低階交互具有較強的泛化能力。}

實驗二：比較神經網路在正常樣本和 OOD 樣本建模的交互作用的分佈。我們比較了從正常樣本中提取的交互與從分佈外 (OOD) 樣本中提取的交互，以檢查神經網路在 OOD 樣本上是否建模更多的高階交互作用。我們將少量訓練樣本的分類標籤設定為錯誤標籤。這樣，資料集中的原始樣本可以視為正常樣本，而一些帶有錯誤標籤的樣本則對應於 OOD 樣本，這些 OOD 樣本可能會導致神經網路的過度擬合。我們在 MNIST 資料集和 CIFAR-10 資料集上分別訓練了 VGG-11 和 VGG-13。圖 8 比較了從正常樣本中提取的交互作用的分佈和從 OOD 樣本中提取的交互作用的分佈。我們發現，VGG-11 和 VGG-13 在分類 OOD 樣本時建模了更多複雜的交互作用（高階交互作用），而在分類正常樣本時則使用了較低階的交互作用。這驗證了高階交互作用的泛化能力通常弱於低階交互作用。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

^{中擷取中擷取中的中提取 (OOD 圖 8：比較從正常樣本中提取的交互與從中提取的交互)。神經網路通常在 OOD 樣本上建模的更高階的交互作用。}

5.3 兩階段現象與神經網路訓練過程loss gap 的變化相對齊

我們發現上述兩階段現象可以充分錶示神經網路泛化性動力學。一個很有趣的現像是神經網路訓練過程中的兩階段現象和神經網路在測試集和訓練集的 loss gap 的變化在時間上是對齊的。訓練損失和測試損失之間的 loss gap 是衡量模型過度適合程度的最廣泛使用的指標。圖 6 顯示了不同的神經網路在訓練工程的測試損失和訓練損失之間的 loss gap 的曲線，也顯示了從不同訓練時期的神經網路中提取的交互分佈。我們發現當神經網路訓練過程中測試損失和訓練損失之間的 loss gap 開始增大時，神經網路恰好也進入訓練的第二階段。這顯示神經網路訓練的兩階段現象與模型 loss gap 的變化在時間上是 “對齊” 的。

我們可以這樣理解上述現象：在訓練過程開始前，初始化的神經網路所建模的交互全部表示隨機噪聲，並且不同階交互的分佈看起來像“紡錘形”。在神經網路訓練的第一階段，神經網路逐漸消除中階和高階的交互，並學習最簡單的（最低階的）交互。然後，在神經網路訓練的第二階段，神經網路建模了階數逐漸增大的交互作用。由於我們在「5.2 神經網路所建模交互的階數和其泛化能力的關係」章節中的兩個實驗驗證了高階交互通常比低階交互具有更差的泛化能力，因此我們可以認為在神經網路訓練的第二階段，DNN 首先學習了泛化能力最強的交互，然後逐漸轉向更複雜但泛化能力較弱的交互。最終一些神經網路逐漸過度擬合，並編碼了大量中階和高階交互作用。

5.4 理論證明兩階段現象

兩科證明神經網路訓練過程的理論證明神經網路訓練過程的理論證明階段現象共分為三個部分，第一部分我們需要證明隨機初始化的神經網路在訓練過程開始之前建模的交互的分佈呈現“紡錘形”，即很少建模高階和低階交互，主要建模中階交互作用。第二部分證明神經網路在訓練的第二階段在建模階數逐漸增大的交互作用。第三部分證明神經網路在訓練的第一階段逐漸消除中階和高階交互，學習最低價的交互。

1. 證明初始化神經網路建模的「紡錘形」交互分佈。

由於隨機初始化的隨機網路在訓練過程開始之前建模的都是噪聲，所以我們假設隨機初始化的神經網路建模的交互的服從平均值為可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

，變異數為

的常態分佈。在上述假設下，我們能夠證明初始化的神經網路建模的交互的強度和的分佈呈現 “紡錘形”，即很少建模高階和低階交互，主要建模中階交互。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

2. 證明神經網路訓練的第二階段的交互變化動態過程。

在進入正式的證明之前，我們需要做以下的預備工作。首先，我們參考[5, 6] 的做法，將神經網路在特定樣本上的inference 改寫為不同交互作用觸發函數的加權和：

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案其中，為標量權重，滿足。而函數為交互觸發函數，在任一遮擋樣本上都滿足。函數的具體形式可以由泰勒展開推導得到，可參考論文，這裡不做贅述。

根據上述改寫形式，神經網路在特定樣本上的學習可近似看成是對交互觸發函數的權重 可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

的學習。進一步地，實驗室的前期工作[3] 發現在同一任務上充分訓練的不同的神經網路往往會建模相似的交互，所以我們可以將神經網路的學習看成是對一系列潛在的ground truth 交互的擬合。由此，神經網路在訓練到收斂時建模的交互作用可以看成是最小化下面的目標函數時得到的解：

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案其中表示神經網路需要擬合的一系列潛在的ground truth 互動。和則分別表示將所有權重拼起來得到的向量和將所有交互觸發函數的值拼起來得到的向量。

可惜的是，上述建模雖然能得到神經網路訓練到收斂時的交互，但是無法很好地刻畫神經網路訓練過程中學習交互的動態過程。這裡引入我們的核心假設：我們假設初始化神經網路的參數上包含了大量噪聲，而這些噪聲的量級在訓練過程中逐步變小。而進一步地，參數上的噪聲會導致交互觸發函數可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

上的噪聲，且該噪聲隨著交互階數指數級增長 (在 [5] 中已有實驗上的觀察和驗證) 。我們將有雜訊下的神經網路的學習建模如下：

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

其中噪音

滿足

。且隨著訓練進行，噪音的變異數可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

逐漸變小。

在給定的噪音量級

的情況下最小化上述損失函數，可得到最優交互權重的解析解，如下圖的定理所示。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

我們發現，隨著訓練進行（即噪音量級變小），中低階交互強度和高階交互強度的比值逐漸減少（如下面的定理）。這解釋了訓練的第二階段中神經網路逐漸學到更高階的互動的現象。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

另外，我們對上述結論進一步做了實驗驗證。給定一個具有 n 個輸入單元的樣本，指標可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

，其中

, 可以用來近似測量第 k 階交互作用和第 k+1 階交互強度的比值。在下圖中，我們可以發現，在不同的輸入單元個數 n 和不同的階數 k 下，該比值都會隨著的減少而逐漸減少。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

^{圖9：在不同的輸入單元個數n 和不同的階數k 下，第k 階交互作用和第k+1 階交互強度的比值都會隨著雜訊量級}^{的減少而逐漸減少。這說明隨著訓練進行（即逐漸變小），低階交互強度與高階交互強度的比值逐漸變小，神經網路逐漸學到更高階的交互作用。}

最後，我們比較了在不同噪音量級下的理論交互值可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

在各階數上的分佈

和實際訓練過程中各階交互的分佈可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

，發現理論交互分佈可以很好地預測實際訓練中各時間點的交互強度分佈。

可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

^{圖10：比較理論交互分佈}^{（藍色直方圖）與實際互動分佈} ^{（橘色直方圖）。在訓練第二階段的不同時間點，理論交互分佈都可以很好地預測和匹配實際交互作用的分佈。更多結果請參見論文。}

3. 證明神經網路訓練的第一階段的交互變化動態過程。

如果說訓練的第二階段中交互的動態變化可以解釋為權重可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案

的最優解在噪音逐漸減小時的變化，那麼第一階段就可認為是交互從初始化的隨機交互逐漸收斂到最優解的過程。

路漫漫其修遠兮，我們團隊是做神經網路可解釋性的第一性原理，我們希望在更多的方面把這個理論做紮實，能夠嚴格證明等效交互是符號化的解釋，並且能夠解釋神經網絡的泛化性、魯棒性，同時證明神經網絡表徵瓶頸，統一12 種提升神經網絡對抗遷移性的方法和解釋14種重要性估計方法。我們後面會做出更紮實的工作，進一步完善理論體系。

^{[1] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining powergeneization poweral of a aww dnn using interactive concepts. AAAI, 2024}

^{[2] Arthur Jacot, Franck Gabriel, Clement Hongler. Neural tangent kernel: Convergence and generalization in neural, 20. Neur. 🎜>}

[3] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023

[4] Wen Shen Le , Yuxiao Yang, Mingjie Li, and Quanshi Zhang. Can the Inference Logic of Large Language Models be Disentangled into Symbolic Concepts?

[5] Qihan Ren, Huyui Deng, Yu Lou, and Quanshi Zhang. Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts. ICML, 2023

[6] Dongrui Liu, Huiqi Deng, Xu and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023

等效交互理論體系

[1] Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Ziwei Yang, Zheyang Li, and Quanshi Zhang. Unifying Fourteen Post-Hoc Attribution Methods With Taylor Interactions. IEEE Transactions on Patterng Analysis and Machinelibution Method T-PAMI), 2024.

[2] Xu Cheng, Lei Cheng, Zhaoran Peng, Yang Xu, Tian Han, and Quanshi Zhang. Layerwise Change of Knowledge in Neural Networks. ICML , 2024.

[3] Qihan Ren, Jiayang Gao, Wen Shen, and Quanshi Zhang. Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in AI Models4LR, 2024LR .

[4] Lu Chen, Siyu Lou, Benhao Huang, and Quanshi Zhang. Defining and Extracting Generalizable Interaction Primitives from DNNs. ICLR, 2024.

[5] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining Generalization Power of a DNN Using Interactive Concepts. AAAI, 2024.

[6] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang, and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023.

^{[7] Quanshi Zhang, Jie Ren, Ge Huang, Ruiming Cao, Ying Nian Wu, and Song-Chun Zhu. Mining Interpretable AOG Representations from Convolutional Networks via Active Question Answering. IEEE Transactions on Machine Patternsis and Intelligence (IEEE T-PAMI), 2020.}

^{[8] Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang, and Quanshi Zhang. A Unified Approach to Interpreting and Boosting Adversarial Transferability. ICLR, 2021.}

^{[9] Hao Zhang, Sen Li, Yinchao Ma, Mingjie Li, Yichen Xie, and Quanshi Zhang. Interpreting and Boosting Dropout a from Game- Theoretic View. ICLR, 2021.}

^{[10] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023.}

>^{[11] Lu Chen, Siyu Lou, Keyan Zhang, Jin Huang, and Quanshi Zhang. HarsanyiNet: Computing Accurate Shapley Values in a Single Forward Propagation. ICML, 2023.}

^{[12] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, and Quanshi Zhang. Bayesian Neural Networks Avoid Encoding Perturbation-Sensitive and Complex Concepts. ICML, 2023.}

[15] Jie, Die 🎜>

^{[15] Jie, Die Yisen Wang, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi, and Quanshi Zhang. A Unified Game-Theoretic Interpretation of Adversarial Robustness. NeurIPS, 2021.}

^{[16] Wen Shen, Qihan Ren, Dongrui Liu, and Quanshi Zhang. Interpreting Representation Quality of DNNs for 3D Point Cloud Processing. NeurIPS, 2021.}

[ Xin Wang, Shuyun Lin, Hao Zhang, Yufei Zhu, and Quanshi Zhang. Interpreting Attributions and Interactions of Adversarial Attacks. ICCV, 2021.

[18] Wen S, Shihihu Huang, Binbin Zhang, Panyue Chen, Ping Zhao, and Quanshi Zhang. Verifiability and Predictability: Interpreting Utilities of Network Architectures for 3D Point Cloud Processing. CVPR, 2021. Zhang, Yichen Xie, Longjie Zheng, Die Zhang, and Quanshi Zhang. Interpreting Multivariate Shapley Interactions in DNNs. AAAI, 2021.[20] Zhang Zhang, Hu Xiaoyi Bao, Da Huo, Ruizhao Chen, Xu Cheng, Mengyue Wu, and Quanshi Zhang. Building Interpretable Interaction Trees for Deep NLP Models. AAAI, 2021.

以上是可解釋性終極追問，什麼才是第一性解釋？ 20篇CCF-A+ICLR論文給你答案的詳細內容。更多資訊請關注PHP中文網其他相關文章！

for die using li 算法 dnn boosting bert nlp https

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：又一「國產版Sora」全球上線！清華朱軍創業團隊，影片生成僅需30秒下一篇：又一「國產版Sora」全球上線！清華朱軍創業團隊，影片生成僅需30秒

看更多