首页 >科技周边 >人工智能 >可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

王林原创: 2024-08-05 15:55:55844浏览

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者为张俊鹏、任启涵、张拳石，其中张俊鹏是张拳石老师的准入学博士生，任启涵是张拳石老师的博士生。

本文首先简单回顾了『等效交互可解释性理论体系』（20 篇 CCF-A 及 ICLR 论文），并在此基础上，严格推导并预测出神经网络在训练过程中其概念表征及其泛化性的动力学变化，即在某种程度上，我们可以解释在训练过程中神经网络在任意时间点的泛化性及其内在根因。

一、前言

长期以来，我们团队一直在思考可解释性领域的一个终极问题，即什么才是解释性领域的第一性原理？所谓第一性原理，目前没有一个被广泛接受的框架，世上本无路，我们需要逐渐去定义这样一个路。我们需要在一个新的理论体系中，提出大量的公理性要求，得出一个可以从不同的角度全方位精确严谨解释神经网络内在机理的理论。一套理论系统能严谨解释神经网络的方方面面才叫 “第一性原理”。

如果你真的在严谨地做 “科学”，那么第一性原理一定不是想象中简单，而是一个复杂的体系，需要研究照顾到深度学习中方方面面纷繁复杂的现象。当然，如果你主观上不愿意或者不信一个理论需要足够严谨，那么研究会变得简单千万倍。就像物理学的标准模型一定比牛顿定律复杂，取决于你希望走哪条路。

沿着这个方向，我们团队独立从头构建了『等效交互可解释性理论体系』，并基于此理论，从三个角度来解释神经网络的内在机理。

1. 语义解释的理论基础：数学证明神经网络的决策逻辑是否可以被少量符号化逻辑所充分覆盖（充分解释）。『证明神经网络的决策逻辑是否可以被有限符号化逻辑解释清楚』这一命题是解释神经网络的根本命题。如果此命题被证伪，则从根本上讲，神经网络的可解释性将是无望的，所有的解释性算法只能提供近似的解读，而无法精确地覆盖所有的决策逻辑。幸运的是，我们找到了在大部分应用中神经网络都可以满足的面向遮挡鲁棒性的三个常见的条件，并且数学证明了满足这三个条件的神经网络的决策逻辑可以被写成符号化的交互概念。

参见 https://zhuanlan.zhihu.com/p/693747946

2. 寻找性能指标背后的可证明、可验证的根因：将神经网络泛化性和鲁棒性等终极性能指标的根因拆分具体少数细节逻辑。对神经网络性能（鲁棒性、泛化性）的解释是神经网络可解释性领域的另一个重大问题。然而，目前人们普遍认为神经网络性能是对神经网络整体的描述，而神经网络无法像人类一样将自己的分类判断拆解成具象化的、少量的决策逻辑。在这方面，我们给出了不一样的观点 —— 将性能指标与具象化的交互之间建立起数学关系。我们证明了 1. 等效交互的复杂度可以直接决定神经网络的对抗鲁棒性 / 迁移性，2. 交互的复杂度决定了神经网络的表征能力，3. 并解释神经网络的泛化能力 [1]，和 4. 解释神经网络的表征瓶颈。

参见1：https://zhuanlan.zhihu.com/p/369883667
参见2：https://zhuanlan.zhihu.com/p/361686461
参见3：https://zhuanlan.zhihu.com/p/704760363
参见4：https://zhuanlan.zhihu.com/p/468569001

3. 统一工程性深度学习算法。由于缺少基础理论的支撑，目前深度学习算法大都是经验性的、工程性的。可解释性领域的第一性原理应该可以承担起将前人的大量工程性经验总结为科学规律的任务。在等效交互可解释性理论体系下，我们团队既证明了 14 种不同的输入重要性归因算法的计算本质在数学上都可以统一写成对交互作用的再分配形式。此外，我们还统一了 12 种提升对抗迁移性的算法，证明了所有提升对抗迁移性算法的一个公共机理是降低对抗扰动之间的交互效用，实现了对神经网络可解释性方向大部分工程性算法的理论凝练。

参见1：https://zhuanlan.zhihu.com/p/610774894
参见2：https://zhuanlan.zhihu.com/p/546433296

在等效交互可解释性理论体系下，我们的团队在之前的研究中已经成功发表了 20 篇 CCF-A 类和机器学习顶级会议 ICLR 论文，我们已经从理论和实验上充分解答了上述问题。

二、本文研究概述

沿着上述理论框架，在这篇知乎文章中，我们希望精确解释出神经网络训练过程中泛化性的变化规律，具体地涉及两篇论文。

1.Junpeng Zhang, Qing Li, Liang Lin, Quanshi Zhang，“Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features”，in arXiv: 2405.10262
2.Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang，“Towards the Dynamics of a DNN Learning Symbolic Interactions” in arXiv:2407.19198

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

^{图 1：两阶段现象的示意图。在第一阶段，神经网络逐渐消除中高阶交互，学习低阶交互；在第二阶段，神经网络逐渐建模阶数不断增大的交互。当神经网络训练过程中测试损失和训练损失之间的 loss gap 开始增大时，神经网络恰好也进入训练的第二阶段。}

我们希望在等效交互框架里提出新的理论，精确预测出神经网络每一个时间点上神经网络所学到的交互概念的数量、复杂度，以及泛化性变化的动力学规律（如图 1 所示）。具体地，我们希望证明出两方面结论。

第一，基于前人的证明（一个神经网络的决策逻辑可以被严格解构表示为几十个交互概念效用的和的形式），进一步严格推导出在整个训练过程中，神经网络所建模的交互效用的变化动力学过程 —— 即理论需精确预测出在不同训练阶段，神经网络所建模的交互概念的分布的变化 —— 推导出哪些交互会在哪个时间点上被学习到。

第二，寻找充分的证据，证明所推导的交互复杂度的变化规律客观反映出神经网络在全训练周期中泛化性变化的规律。

综上两点，我们希望具体彻底解释清楚神经网络的泛化性变化的内在根因。

与前人的关系：当然大家可能第一反应想到神经正切核（NTK）[2]，但是神经正切核只是把参数的变化曲线解了出来，而没办法进一步深入到决策逻辑层面进行解释，没有将神经网络建模的概念表征与其泛化性的关系建立起来，对泛化性的分析依然停留在特征空间分析的层面，而没有在【符号化概念逻辑】与【泛化性】之间建立起严格的关系。

三、两大研究背景

误会 1：神经网络的第一性表征是『等效交互』，而不是神经网络的参数和结构。单纯从结构层面分析神经网络是人们对神经网络泛化根本表征的误解。目前大部分神经网络泛化性研究主要着眼于神经网络的结构、特征、以及数据。人们认为不同的神经网络结构就自然对应不同的函数，并自然展现出不同的性能。

但是，事实上，如图 2 所示，结构的区别只是神经网络表征的表面形式。除去有明显缺陷的对性能有明显影响的神经网络，所有其他可以实现 SOTA 性能的具有不同结构的神经网络往往都建模了相似的等效交互表征，即不同结构的高性能神经网络在等效交互表征上往往都是殊途同归的 [3, 4]。虽然神经网络其中层特征内部是复杂的混乱的，虽然不同神经网络所建模的特征向量大相径庭，虽然神经网络中单个神经元往往建模了相对比较混乱的语义（不是严格清晰的语义），但是神经网络作为一个整体，我们从理论上证明神经网络的所建模的交互关系是稀疏的符号化的（而不是特征的稀疏性，具体见 “四、交互的定义” 章节），而且面向相同任务的完全不同的神经网络往往建模了相似的交互关系。

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

^{图 2：不同结构的神经网络所建模的等效交互往往是殊途同归的。对于一个相同的输入句子，面向两个相同任务的两个完全不同的神经网络建模往往相似的交互。}

由于不同神经网络的参数和训练样本不一样，两个神经网络中没有任何一个神经元在表征上具有严格的一一对应关系，且每一个神经元往往建模着不同语义的混合模式。相比之下，正如上段分析，神经网络所建模的交互表征实际上是不同神经网络表征中的不变量。因此，我们有理由认为神经网络根本表征是等效交互，而不是其载体（参数和训练样本），符号化交互表征可能代表了知识表征的第一性原理（被交互的稀疏性定理、无限拟合性定理、以及殊途同归现象所保证，见 “四、交互的定义” 章节，具体详细研究见下面知乎文章。

参见：https://zhuanlan.zhihu.com/p/633531725

误会 2：神经网络的泛化性问题是一个混合模型问题，而不是一个高维空间的向量。如图 3 所示，传统的泛化性分析总是假设单个样本整体是高维空间的一个点，实际上神经网络对单个样本的表征是 mixture model 的形式 —— 实际上通过大量不同的交互来表达。我们发现简单交互的泛化能力比复杂交互的泛化能力更强，所以不再适合用一个简单标量来笼统表示整个神经网络在不同样本上的泛化能力。相反，同一个神经网络在不同的样本上建模了不同复杂度的交互关系，而不同复杂度的交互往往对应着不同泛化能力。通常情况下，神经网络建模的高阶（复杂）的交互往往难以泛化到测试样本上（测试样本上不会触发相同的交互），代表过拟合表征，而神经网络建模的低阶（简单）交互往往代表泛化性较强的表征，具体详细研究见 [1]。

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

^{图 3：（a）传统的泛化性分析总是假设单个样本整体是高维空间的一个点。（b）实际上神经网络对单个样本的表征是 mixture model 的形式，神经网络在单个样本会建模简单交互（可泛化的交互）和复杂交互（不可泛化的交互）。}

四、交互的定义

让我们考虑一个深度神经网络可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

和一个输入样本

，它包含

个输入变量，我们用集合可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

表示这些输入变量的全集。令可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

表示 DNN 在样本可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

上的一个标量输出。对于一个面向分类任务的神经网络，我们可以从不同角度来定义其标量输出。例如，对于多类别分类问题，可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

可以定义为

，也可以定义为 softmax 层之前该样本真实标签所对应的标量输出。这里，可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

表示真实标签的分类概率。这样，针对每个子集可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

，我们可以用下面公式来定义可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

中所有输入变量之间 “等效与交互” 和 “等效或交互”。

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

如图 4（a）所示，我们可以这样理解上述与或交互：我们可以认为与等效交互表示神经网络所编码的可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

内输入变量之间的 “与关系”。例如，给定一个输入句子可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

,神经网络可能会在

之间建模一个交互，使得可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

产生一个推动神经网络输出 “倾盆大雨” 的数值效用。如果可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

中的任何输入变量被遮挡，则该数值效用将从神经网络的输出中移除。类似地，等效或交互可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

表示神经网络所建模的可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

内输入变量之间的 “或关系”。例如，给定一个输入句子可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

，只要

中的任意一个词出现，就会推动神经网络的输出负面情感分类。

神经网络所建模的等效交互满足 “理想概念” 的三条公理性准则，即无限拟合性、稀疏性、样本间迁移性。

无限拟合性：如图 4，5 所示，对于任意遮挡样本，神经网络在样本上的输出可以用不同交互概念的效用之和来拟合。即，我们可以构造出一个基于交互的 logical model，无论我们如何遮挡输入样本，这个 logical model 依然可精确拟合模型在此输入样本在任意遮挡状态下的输出值。
稀疏性：面向分类任务的神经网络往往只建模少量的显著交互概念，而大部分交互概念都是数值效用都接近于 0 的噪声。
样本间迁移性：交互在不同样本间是可迁移的，即神经网络在（同一类别的）不同样本上建模的显著交互概念往往有很大的重合。

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

^{图 4：神经网络的复杂的推理逻辑可以被基于少量交互的逻辑模型}^{准确拟合。每个交互都是衡量神经网络建模特定输入变量集合}^{之间非线性关系的度量指标。当且仅当集合中变量同时出现时才会触发与交互，并为输出贡献数值分数}^{，集合中任意变量出现时会触发或交互。}

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

^{图 5：神经网络在任意的遮挡样本上的输出可以用不同交互概念的效用之和来拟合，即我们可以构造出一个基于交互的 logical model，无论我们如何遮挡输入样本，哪怕穷举个输入单元上种完全不同的遮挡方式，这个 logical model 依然可精确拟合模型在此输入样本在任意遮挡状态下的输出值。}

五、新的发现与证明

5.1 发现神经网络在训练过程中交互变化的两阶段现象

在这篇知乎文章中，我们关注神经网络解释性领域的一个根本问题，即如何从一个解析分析的角度去严格预测出神经网络在训练过程中泛化能力的变化情况，并且精确的分析神经网络从欠拟合到过拟合的整个动态变化过程及其背后的根本原因。

首先，我们将交互的阶数（复杂度）定义为交互中的输入变量的数量，可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

。我们团队之前的工作发现神经网络在某个特定样本所建模的 “与或交互” 的复杂度直接决定了神经网络在这个样本的泛化能力 [1]，即神经网络建模的高阶的（大量输入单元之间的）“与或交互” 往往有较差的泛化能力，而低阶的（少量输入单元之间的）“与或交互” 具有较强的泛化能力。

因此，本篇研究的第一步是去预测出神经网络在训练过程中不同时间点所建模的不同阶 “与或交互” 的复杂度的一个解析解，即我们可以通过神经网络在不同时间点所建模的不同阶 “与或交互” 的分布去解释神经网络在不同阶段的泛化能力。交互的泛化能力的定义与神经网络整体泛化能力的定义请见 “5.2 神经网络所建模交互的阶数和其泛化能力的关系” 章节。

我们提出两个指标来表示不同阶（复杂度）的交互的强度的分布。具体来说，我们用可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

来衡量所有阶正显著交互的强度，用可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

来衡量所有

阶负显著交互的强度，其中可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

和

表示显著交互的集合，可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

表示显著交互的阈值。

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

^{图 6：从训练不同轮次的神经网络中提取的不同阶交互强度}^和^{。在不同数据集上、不同任务上训练的不同的神经网络的训练过程都存在两阶段现象。前两个选定时间点属于第一阶段，而后两个时间点属于第二阶段。恰恰在进入神经网络训练过程的第二阶段不久，神经网络的测试损失和训练损失之间的 loss gap 开始显着上升（见最后一列）。这表明神经网络训练的两阶段现象与模型 loss gap 的变化在时间上是 “对齐” 的。更多实验结果请参见论文。}

如图6 所示，神经网络的两阶段现象具体表现为：

在神经训练训练之前，初始化的神经网络主要编码中阶交互，很少编码高阶和低阶交互，并且不同阶交互的分布看起来呈现“纺锤形”。假设具有随机初始化参数的神经网络建模的是纯噪声，我们在“5.4 理论证明两阶段现象” 章节证明了具有随机初始化参数的神经网络建模的不同阶的交互的分布呈现“纺锤形”，即仅建模少量的低阶和高阶交互，大量建模中阶交互。
在神经网络训练的第一阶段，神经网络编码的高阶和中阶交互的强度逐渐减弱，而低阶交互的强度逐渐增强。最终，高阶和中阶交互逐渐被消除，神经网络只编码低阶交互。
在神经网络训练的第二阶段，神经网络在训练过程中编码的交互阶数（复杂度）逐渐增加。在逐渐学习更高复杂度的交互的过程中，神经网络过拟合的风险也在逐渐提高。

上述的两阶段现象广泛存在于不同结构的神经网络训练于不同任务上的不同数据集的训练过程中。我们在图像数据集（CIFAR-10 数据集、MNIST 数据集、CUB200-2011 数据集（使用从可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案中裁剪出来的鸟类图像）和Tiny-ImageNet 数据集）上训练了VGG-11/13/16和 AlexNet。我们在 SST-2 数据集上训练了用于情感语义分类 Bert-Medium/Tiny 模型，我们在 ShapeNet 数据集中训练 DGCNN 来分类的 3D 点云数据。上图显示了不同的神经网络在不同训练时期提取的不同阶的显着交互的分布。我们在这些神经网络的训练过程中都发现了两阶段现象，更多实验结果及细节请参考论文。

5.2 神经网络所建模交互的阶数和其泛化能力的关系

我们团队之前的工作已经发现了神经网络所建模交互的阶数和其泛化能力的关系，即高阶交互比低阶交互具有更差的泛化能力[1]。某个具体交互的泛化性有清晰的定义 —— 如果一个交互同时在训练样本和测试样本中频繁的被神经网络所建模，则这个交互具有较好的泛化能力。在本篇知乎文章中，介绍了两个实验来证明高阶交互具有较差的泛化能力，低阶交互具有较强的泛化能力。

实验一：观察在不同数据集上训练的不同神经网络所建模的交互的泛化性。这里我们用被测试集所触发的交互的分布和被训练集所触发的交互的分布的 Jaccard 相似性来度量交互的泛化性。具体来说，给定一个包含可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

个输入变量的输入样本可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

，我们将从输入样本

提取到的

阶交互向量化

，其中

表示

个

阶交互。然后，我们计算分类任务中所有类别为可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

的样本中提取到的

阶的平均交互向量，表示为可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

，其中

表示类别为

的样本的集合。接下来，我们计算从训练样本中提取的阶的平均交互向量可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

与从测试样本中提取的可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

阶的平均交互向量

之间的 Jaccard 相似性，以衡量分类任务中类别为可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

的样本的

阶交互的泛化能力，即：

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

其中，

和

将两个

维交互向量投影到两个可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

维的非负向量上，以便计算 Jaccard 相似性。对于某一阶的交互，如果此阶交互普遍展现出较大的 Jaccard 相似性，则表示这一阶交互具有较强的泛化能力。

我们进行了实验计算不同阶交互可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

。我们测试了在 MNIST 数据集上训练的 LeNet、在 CIFAR-10 数据集上训练的 VGG-11、在 CUB200-2011 数据集上训练的 VGG-13，以及在 Tiny-ImageNet 数据集上训练的 AlexNet。为了减少计算成本，我们仅计算了前 10 个类别的 Jaccard 相似性的平均值可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

。如图 7 所示，随着交互阶数的增加，交互的 Jaccard 相似性不断下降。因此，这验证了高阶交互比低阶交互具有更差的泛化能力。

^{图 7：从训练样本和测试样本中提取的交互之间的 Jaccard 相似性。低阶交互具有相对较高 Jaccard 相似性表明低阶交互具有较强的泛化能力。}

実験 2: 通常サンプルと OOD サンプルでニューラルネットワークによってモデル化されたインタラクションの分布を比較します。通常のサンプルから抽出された相互作用と分布外 (OOD) サンプルから抽出された相互作用を比較し、ニューラルネットワークが OOD サンプル上でより高次の相互作用をモデル化するかどうかを調べました。少数のトレーニングサンプルの分類ラベルを間違ったラベルに設定しました。このように、データセット内の元のサンプルは通常のサンプルと見なすことができますが、間違ったラベルが付いた一部のサンプルは OOD サンプルに対応し、これらの OOD サンプルはニューラルネットワークの過学習を引き起こす可能性があります。 VGG-11 と VGG-13 をそれぞれ MNIST データセットと CIFAR-10 データセットでトレーニングしました。図 8 は、正常サンプルから抽出された相互作用の分布と OOD サンプルから抽出された相互作用の分布を比較しています。 VGG-11 と VGG-13 は、OOD サンプルを分類するときにより複雑な相互作用 (高次の相互作用) をモデル化するのに対し、正常なサンプルを分類するときには低次の相互作用が使用されることがわかりました。これは、高次の相互作用の一般化能力が、低次の相互作用の汎化能力よりも一般に弱いことを証明します。

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

図 8: 通常のサンプルから抽出された相互作用と分布 (OOD) サンプルから抽出された相互作用を比較します。ニューラルネットワークは通常、OOD サンプル上の高次の相互作用をモデル化します。

5.3 ニューラルネットワークのトレーニングプロセス中の二段階現象と損失ギャップの変化は比較的一貫しています

上記の二段階現象は一般化を完全に表現できることがわかりましたニューラルネットワークのダイナミクス。非常に興味深い現象は、ニューラルネットワークの学習プロセスにおける 2 段階の現象と、テストセットとトレーニングセットにおけるニューラルネットワークの損失ギャップの変化が時間的に一致していることです

。トレーニング損失とテスト損失の間の損失ギャップは、モデルの過学習の程度を測定するために最も広く使用されている指標です。図 6 は、さまざまなニューラルネットワークのトレーニングプロジェクトのテスト損失とトレーニング損失の間の損失ギャップの曲線を示し、さまざまなトレーニングエポックでニューラルネットワークから抽出された相互作用分布も示しています。ニューラルネットワークのトレーニングプロセス中にテスト損失とトレーニング損失の間の損失ギャップが増加し始めると、ニューラルネットワークがトレーニングの第 2 段階に入ることがわかりました。これは、ニューラルネットワークトレーニングの 2 段階の現象が、モデルの損失ギャップの変化に合わせて「調整」されていることを示しています。

上記の現象は次のように理解できます。トレーニングプロセスが開始される前、初期化されたニューラルネットワークによってモデル化された相互作用はすべてランダムノイズを表し、さまざまな次数の相互作用の分布は「紡錘体」のように見えます。ニューラルネットワークのトレーニングの最初の段階では、ニューラルネットワークは中間および高次の相互作用を徐々に排除し、最も単純な (最低次の) 相互作用を学習します。次に、ニューラルネットワークトレーニングの第 2 段階で、ニューラルネットワークは昇順の相互作用をモデル化します。「5.2 ニューラルネットワークによってモデル化された相互作用の次数とその汎化能力の関係」の章での 2 つの実験により、高次の相互作用は通常、低次の相互作用よりも汎化能力が劣ることが確認されたので、第 2 段階では次のように考えることができます。ニューラルネットワークのトレーニングでは、DNN は最初に最も強い汎化能力を持つ相互作用を学習し、次に徐々に汎化能力が弱いより複雑な相互作用に移行します。最終的に、一部のニューラルネットワークは徐々にオーバーフィットし、多数の中高次相互作用をエンコードします。

5.4 2 段階現象を理論的に証明する

ニューラルネットワークのトレーニングプロセスの 2 段階現象を理論的に証明する最初の部分では、次のことを証明する必要があります。トレーニングプロセスの開始前にランダムに初期化されたニューラルネットワーク。モデル化された相互作用の分布は「紡錘形」を示します。つまり、高次および低次の相互作用はほとんどモデル化されず、中次の相互作用が主にモデル化されます。 2 番目の部分では、ニューラルネットワークがトレーニングの第 2 段階でますます大規模な相互作用をモデル化することを示します。セクション 3 では、ニューラルネットワークがトレーニングの最初の段階で中次および高次の相互作用を徐々に排除し、最低コストの相互作用を学習することを示します。

1. 初期化ニューラルネットワークモデリングの「スピンドル」相互作用分布を証明します。

ランダムに初期化されたランダムネットワークはトレーニングプロセスの開始前にノイズをモデル化するため、ランダムに初期化されたニューラルネットワークによってモデル化された相互作用は平均
と分散

の正規分布に従うと仮定します。上記の仮定の下で、初期化されたニューラルネットワークによってモデル化された相互作用の強度合計の分布が「紡錘形」を示すことを示すことができました。つまり、高次および低次の相互作用はほとんどモデル化されず、主に中程度の相互作用をモデル化します。注文のやりとり。

2. ニューラルネットワークトレーニングの第 2 段階でインタラクティブな変更の動的プロセスを証明します。

正式な認定を入力する前に、次の準備作業を行う必要があります。まず、[5, 6] のアプローチに従い、 特定のサンプルに対するニューラルネットワークの推論を、さまざまなインタラクショントリガー関数の重み付き合計 として書き換えます。

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案ここで、はを満たすスカラー重みです。関数は対話型トリガー関数であり、任意のオクルージョンサンプルでを満たします。関数の具体的な形式については、論文を参照してください。ここでは説明しません。

上記の書き換え形式によれば、特定のサンプルに対するニューラルネットワークの学習は、インタラクティブトリガー関数の重み 可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

の学習と近似できる。さらに、研究室の予備研究 [3] では、同じタスクで完全にトレーニングされた異なるニューラルネットワークは同様の相互作用をモデル化する傾向があることが判明したため、ニューラルネットワークの学習は一連の潜在的なグラウンドトゥルース相互作用とみなすことができます。したがって、ニューラルネットワークが収束するようにトレーニングされているときにモデル化された相互作用は、次の目的関数を最小化するときに得られる解とみなすことができます:

可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案ここで、は、ニューラルネットワークが適合する必要がある一連の潜在的なグランドトゥルース相互作用を表します。とはそれぞれ、すべての重みをまとめて得られるベクトルと、すべてのインタラクショントリガー関数の値をまとめて得られるベクトルを表します。

残念ながら、上記のモデリングはニューラルネットワークが収束するようにトレーニングされるときに相互作用を取得できますが、ニューラルネットワークのトレーニングプロセス中に相互作用を学習する動的プロセスをうまく説明できません。ここで私たちの核となる仮説を紹介します。初期化されたニューラルネットワークのパラメーターには大量のノイズが含まれており、これらのノイズの大きさはトレーニングプロセス中に徐々に小さくなると仮定します。さらに、パラメーター上のノイズは相互作用トリガー関数上のノイズにつながり、このノイズは相互作用の次数とともに指数関数的に増加します (これは実験的に観察され、[5] で検証されています)。次のように、ノイズを含むニューラルネットワークの学習をモデル化します。
ノイズが満たされる場所。そして、トレーニングが進むにつれて、ノイズの分散は徐々に小さくなります。

与えられたノイズレベルに対して上記の損失関数を最小化することにより、下図の定理に示すように、 最適な相互作用重み の解析解 を得ることができます。

トレーニングが進行するにつれて (つまり、ノイズの大きさが小さくなる)、高次の相互作用強度に対する低次および中次の相互作用強度の比率が徐々に減少することが分かりました (図に示すように)以下の定理）。これは、トレーニングの第 2 フェーズ中にニューラルネットワークが高次の相互作用を徐々に学習する現象を説明します。
さらに、上記の結論をさらに実験的に検証しました。 n 個の入力ユニットを持つサンプルが与えられた場合、メトリック
( は ) を使用して、k 次の相互作用と k+1 次の相互作用の強度の比を近似的に測定できます。下の図では、入力ユニットの数 n と次数 k が異なると、が減少するにつれて比率が徐々に減少することがわかります。

^{図 9: 異なる入力ユニット数 n と異なる次数 k の下で、k 次の相互作用と k+1 次の相互作用の強度の比はノイズレベルに応じて変化します}^{徐々に減少します。これは、トレーニングが進むにつれて (つまり、が徐々に小さくなる)、低次の相互作用強度と高次の相互作用強度の比率が徐々に小さくなり、ニューラルネットワークが徐々に高次の相互作用を学習することを示しています。}

最後に、異なるノイズレベルの下での各次数での理論的な相互作用値の分布を、実際のトレーニングプロセス中の相互作用の各次数の分布と比較し、理論相互作用分布は、実際のトレーニングにおける各時点での相互作用強度分布を適切に予測できます。
^{図 10: 理論上の相互作用分布}^{(青色のヒストグラム) と実際の相互作用分布}^{(オレンジ色のヒストグラム) の比較。理論的な相互作用分布は、トレーニングの第 2 フェーズのさまざまな時点での実際の相互作用分布を適切に予測し、一致させます。詳しい結果については論文を参照してください。}

3. ニューラルネットワークトレーニングの最初の段階で、インタラクティブな変更の動的プロセスを証明します。

トレーニングの第 2 段階におけるインタラクションの動的な変化が、ノイズ が徐々に減少するときの重み の最適解の変化として説明できる場合、最初の段階は次のようになります。初期のランダムな相互作用は、徐々に最適解に収束します。

私たちのチームは、ニューラルネットワークの解釈可能性の第一原理に取り組んでおり、この理論をより多くの面で確固たるものにし、等価な相互作用が記号的説明であることを厳密に証明できるようにしたいと考えています。また、ニューラルネットワーク表現のボトルネックを証明しながら、ニューラルネットワークの一般化と堅牢性を説明し、ニューラルネットワークの移行に対する耐性を向上させる 12 の方法を統合し、14 の重要度推定方法を説明できます。理論体系をさらに改善するために、後でさらにしっかりとした作業を行う予定です。

^{[1] Huilin Zhou、Hao Zhang、Huiqi Deng、Dongrui Liu、Wen Shen、Shih-Han Chan、Quanshi Zhang、AAAI、2024 年}
^{。 [2] Arthur Jacot、Franck Gabriel、Clement Honler、ニューラルタンジェントカーネル: NeurIPS の収束と一般化、2018}
^{[3] Mingjie Li、Quanshi Zhang。、2023}
^{[4] Wen Shen、Lei Cheng、Yuxiao Yang、Mingjie Li、Quanshi Zhang。大規模言語モデルの推論ロジックは記号概念に分解できますか?}
^{[5] Qihan Ren、Huiqi Deng、Yunuo Chen、Siyu Lou、Quanshi Zhang、ベイジアンニューラルネットワークは複雑で機密性の高い概念を無視する傾向がある、ICML、2023}
^{[6] Dongrui Liu、Huiqi Deng、Xu Cheng、Qihan Ren、Kanrui Wang、Quanshi。 Zhang、ディープニューラルネットワークがさまざまな複雑さの概念を学習することの困難に向けて、2023 年}

^{等価相互作用理論システム}

^{[1] Huiqi Deng、Na Zou、Mengnan Du、Weifu Chen、Guocan Feng 、 Ziwei Yang、Zheyang Li、Quanshi Zhang、14 のポストホックアトリビューションメソッドとテイラーインタラクションの統合、パターン分析とマシンインテリジェンスに関する IEEE トランザクション (IEEE T-PAMI)、2024 年。}

^{[2] Xu Cheng、Lei Cheng 、Zhaoran Peng、Yang Xu、Tian Han、Quanshi Zhang、ICML における層ごとの知識の変化。}

^{[3] Qihan Ren、Jiayang Gao、Wen Shen、Quanshi Zhang。 AI モデルにおけるスパースインタラクションプリミティブの証明、2024 年。}

^{[4] Lu Chen、Siyu Lou、Benhao Huang、Quanshi Zhang、ICLR からの一般化可能なインタラクションプリミティブの定義、2024 年。}

[5] Huilin Zhou、Hao Zhang、Huiqi Deng、Dongrui Liu、Wen Shen、Shih-Han Chan、Quanshi Zhang、AAAI、2024 年。

[ 6 ] Dongrui Liu、Huiiqi Deng、Xu Cheng、Qihan Ren、Kangrui Wang、Quanshi Zhang、さまざまな複雑さの概念を学習するディープニューラルネットワークの困難に向けて、2023 年。

^{[7] Quanshi Zhang、Jie Ren、Ge Huang、Ruiming Cao、Ying Nian Wu、Song-Chun Zhu。アクティブ質問応答による畳み込みネットワークからの解釈可能な AOG 表現のマイニング。パターン分析とマシンインテリジェンスに関する IEEE トランザクション (IEEE T)。 -PAMI)、2020年。}

^{[8] Xin Wang、Jie Ren、Shuyun Lin、Xiangming Zhu、Yisen Wang、Quanshi Zhang、ICLR、2021年。 [9] Hao Zhang、Sen Li、Yinchao Ma、Mingjie Li、Yichen Xie、Quanshi Zhang、ICLR の解釈と強化、2021 年。}

^{[10] Mingjie Li、Quanshi Zhang。ニューラルネットワークは本当にシンボリックコンセプトをエンコードしますか? ICML、2023.}

^{[12] Qihan Ren、Huiqi Deng、Yunuo Chen、Siyu Lou、Quanshi Zhang、ベイジアンニューラルネットワークは摂動に敏感な複雑な概念を回避します。}

^{[13] ] Jie Ren、Mingjie Li、Qirui Chen、Huiqi Deng、Quanshi Zhang、DNN におけるスパース概念の出現の定義と定量化、2023 年。}

^{[14] Jie Ren、Mingjie Li、Meng Zhou、Shih- Han Chan、Quanshi Zhang、ReLU DNN の変換の複雑さの理論的分析に向けて、2022 年}

^{[15] Jie Ren、Die Zhang、Yisen Wang、Lu Chen、Zhanpeng Zhou、Yiting Chen、Xu Cheng、Xin Wang、Meng Zhou、Jie Shi、Quanshi Zhang、NeurIPS の統一ゲーム理論的解釈。Wen Shen、Qihan Ren、Dongrui Liu、Quanshi Zhang の表現品質の解釈。 3D 点群処理のための DNN、2021 年。}

^{[17] Xin Wang、Shuyun Lin、Hao Zhang、Yufei Zhu、Quanshi Zhang、2021 年。] Wen Shen、 Zhihua Wei、Shikun Huang、Binbin Zhang、Panyue Chen、Ping Zhao、Quanshi Zhang、検証可能性と予測可能性: 3D 点群処理のためのネットワークアーキテクチャの解釈、2021 年。}

^{[19] Hao Zhang、Yichen Xie。、Longjie Zheng、Die Zhang、Quanshi Zhang、DNN での多変量 Shapley 相互作用の解釈、2021 年。 Mengyue Wu、Quanshi Zhang、ディープ NLP モデルのための解釈可能なインタラクションツリーの構築、2021 年。}