搜索
首页科技周边人工智能一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

神经网络作为深度学习技术的基础已经在诸多应用领域取得了有效成果。在实践中,网络架构可以显着影响学习效率,一个好的神经网络架构能够融入问题的先验知识,确立网络训练,提高计算效率。目前,经典的网络架构设计方法包括人工设计、神经网络架构搜索(NAS)[1]、以及基于优化的网络设计方法 [2]。人工设计的网络架构如ResNet 等;神经网络架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳网络结构;基于优化的设计方法中的一种主流范式是算法展开(algorithm unrolling),该方法通常在有显式目标函数的情况下,从优化算法的角度设计网络结构。 这些方法在优化算法的角度设计网络结构时,从优化算法的角度设计网络结构。

现今有经典神经网络架构设计大多忽略了网络的万有逼近性——这是神经网络具备强大性能的关键因素之一。因此,这些设计方法在一定程度上失去了网络的先验性能保障。尽管两层神经网络在宽度趋于无穷的时候已具有万有逼近性质 [3],在实际中,我们通常只能考虑有限宽度的网络结构,这方面的表现分析的结果十分有限。实际上,启发性的人工设计,还是黑匣性质的神经网络架构搜索,都很难在网络设计中考虑万有逼近性质。基于优化的神经网络设计虽然相对更具解释性,但其通常需要一个明显的目标函数,这使得设计的网络结构种类有限,限制了其应用范围。如何系统性地设计工具有万有逼近性质的神经网络架构,仍然是一个重要的问题。

北京大学林宙辰教授团队提出了一种基于优化算法设计工具的神经网络架构,该方法通过将基于梯度的一阶优化算法与基于哈希的二阶优化算法相结合,提高了训练速度和收敛性能,并且增强了神经网络的鲁棒性保障。该神经网络模块也可用于现有基于模块化的网络设计方法,并且不断提高了模型的表现。最近,他们通过分析神经网络微分方程(NODE)的逼近性质,证明了跨层连接的神经网络具有万有近似性质,并利用提出的框架设计了ConvNext、ViT等变种网络,取得了超越baseline的结果。该论文被人工智能顶刊TPAMI接收。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

  • 论文:Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach
  • 论文地址:https://ieeexplore.ieee.org/document/10477580

方法简介

传统的基于优化的神经网络设计方法常常从一个具有显式表达式的目标函数出发,采用特定的优化算法进行求解,再将优化结果映射为神经网络结构,例如著名的LISTA-NN 就是利用LISTA 算法求解LASSO 问题所得到的显式表达式,将优化结果转化为神经网络结构[4]。这种方法对于目标函数的显式表达式有着很强的依赖性,因此所得到的网络结构只能针对目标函数的显式表达式进行优化,存在着设计出不符合实际情况的假设的风险。 一些研究者尝试通过自定义目标函数,再利用算法展开等方法设计网络结构,但他们也需要如权重重绑定等实际情况下不一定符合假设的假设。因此,一些研究者提出使用基于神经网络的进化算法进行网络架构搜索,来获取更加合理的网络结构。

网络架构设计方案的更新格式应遵循从一阶优化算法到更近点算法的思路,进行逐步优化。例如,可以将欧拉角算法改为四元数算法,或者采用更加高效的迭代算法来近似求解。更新格式应考虑增加计算精度和提高运行效率。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

其中一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法表示第 k 步更新时的(步长)系数,再将梯度项替换为神经网络中的可学习模块 T,即可得到 L 层神经网络的骨架:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

整体方法框架见图 1。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 1 网络设计图示

论文提出的方法可以启发设计 ResNet、DenseNet 等经典网络,并且解决了传统基于优化设计网络架构的方法局限于特定目标函数的问题。

模块选取与架构细节

该方法所设计的网络模块 T 只要求有包含两层网络结构,即一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法,作为其子结构,即可保证所设计的网络具有万有逼近性质,其中所表达的层的宽度是有限的(即不随逼近精度的提高而增长),整个网络的万有逼近性质不是靠加宽一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的层来获得的。模块 T 可以是 ResNet 中广泛运用的 pre-activation 块,也可以是 Transformer 中的注意力 前馈层的结构。T 中的激活函数可以是 ReLU、GeLU、Sigmoid 等常用激活函数。还可以根据具体任务在中添加对应的归一化层。另外,一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法时,设计的网络是隐式网络 [5],可以用不动点迭代的方法逼近隐格式,或采用隐式微分(implicit differentiation)的方法求解梯度进行更新。

通过等价表示设计更多网络

该方法不要求同一种算法只能对应一种结构,相反,该方法可以利用优化问题的等价表示设计更多的网络架构,体现其灵活性。例如,线性化交替方向乘子法通常用于求解约束优化问题:一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法通过令一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法即可得到一种可启发网络的更新迭代格式:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

其启发的网络结构可见图 2。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 2 线性化交替方向乘子法启发的网络结构

启发的网络具有万有逼近性质

对该方法设计的网络架构,可以证明,在模块满足此前条件以及优化算法(在一般情况下)稳定、收敛的条件下,任意一阶优化算法启发的神经网络在高维连续函数空间具有万有逼近性质,并给出了逼近速度。论文首次在有限宽度设定下证明了具有一般跨层连接的神经网络的万有逼近性质(此前研究基本集中在 FCNN 和 ResNet,见表 1),论文主定理可简略叙述如下:

主定理(简略版):设一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法 A 是一个梯度型一阶优化算法。若算法 A 具有公式 (1) 中的更新格式,且满足收敛性条件(优化算法的常用步长选取均满足收敛性条件。若在启发网络中均为可学习的,则可以不需要该条件),则由算法启发的神经网络:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

在连续(向量值)函数空间一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法以及范数一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法下具有万有逼近性质,其中可学习模块 T 只要有包含两层形如一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的结构(σ 可以是常用的激活函数)作为其子结构都可以。

常用的 T 的结构如:

1)卷积网络中,pre-activation 块:BN-ReLU-Conv-BN-ReLU-Conv (z),

2)Transformer 中:Attn (z) MLP (z Attn (z)).

主定理的证明利用了 NODE 的万有逼近性质以及线性多步方法的收敛性质,核心是证明优化算法启发设计的网络结构恰对应一种收敛的线性多步方法对连续的 NODE 的离散化,从而启发的网络 “继承” 了 NODE 的逼近能力。在证明中,论文还给出了 NODE 逼近 d 维空间连续函数的逼近速度,解决了此前论文 [6] 的一个遗留问题。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 1 此前万有逼近性质的研究基本集中在 FCNN 和 ResNet

实验结果

论文利用所提出的网络架构设计框架设计了 8 种显式网络和 3 种隐式网络(称为 OptDNN),网络信息见表 2,并在嵌套环分离、函数逼近和图像分类等问题上进行了实验。论文还以 ResNet, DenseNet, ConvNext 以及 ViT 为 baseline,利用所提出的方法设计了改进的 OptDNN,并在图像分类的问题上进行实验,考虑准确率和 FLOPs 两个指标。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 2 所设计网络的有关信息

首先,OptDNN 在嵌套环分离和函数逼近两个问题上进行实验,以验证其万有逼近性质。在函数逼近问题中,分别考虑了逼近 parity function 和 Talgarsky function,前者可表示为二分类问题,后者则是回归问题,这两个问题都是浅层网络难以逼近的问题。OptDNN 在嵌套环分离的实验结果如图 3 所示,在函数逼近的实验结果如图 3 所示,OptDNN 不仅取得了很好的分离 / 逼近结果,而且比作为 baseline 的 ResNet 取得了更大的分类间隔和更小的回归误差,足以验证 OptDNN 的万有逼近性质。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 3 OptNN 逼近 parity function


一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 4 OptNN 逼近 Talgarsky function

然后,OptDNN 分别在宽 - 浅和窄 - 深两种设定下在 CIFAR 数据集上进行了图像分类任务的实验,结果见表 3 与 4。实验均在较强的数据增强设定下进行,可以看出,一些 OptDNN 在相同甚至更小的 FLOPs 开销下取得了比 ResNet 更小的错误率。论文还在 ResNet 和 DenseNet 设定下进行了实验,也取得了类似的实验结果。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 3 OptDNN 在宽 - 浅设定下的实验结果

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 4 OptDNN 在窄 - 深设定下的实验结果

论文进一步选取了此前表现较好的 OptDNN-APG2 网络,进一步在 ConvNext 和 ViT 的设定下在 ImageNet 数据集上进行了实验,OptDNN-APG2 的网络结构见图 5,实验结果表 5、6。OptDNN-APG2 取得了超过等宽 ConvNext、ViT 的准确率,进一步验证了该架构设计方法的可靠性。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 5 OptDNN-APG2 的网络结构

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 5 OptDNN-APG2 在 ImageNet 上的性能比较

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 6 OptDNN-APG2 与等宽(isotropic)的 ConvNeXt 和 ViT 的性能比较

最后,论文依照 Proximal Gradient Descent 和 FISTA 等算法设计了 3 个隐式网络,并在 CIFAR 数据集上和显式的 ResNet 以及一些常用的隐式网络进行了比较,实验结果见表 7。三个隐式网络均取得了与先进隐式网络相当的实验结果,也说明了方法的灵活性。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 7 隐式网络的性能比较

总结

神经网络架构设计是深度学习中的核心问题之一。论文提出了一个利用一阶优化算法设计具有万有逼近性质保障的神经网络架构的统一框架,拓展了基于优化设计网络架构范式的方法。该方法可以与现有大部分聚焦网络模块的架构设计方法相结合,可以在几乎不增加计算量的情况下设计出高效的模型。在理论方面,论文证明了收敛的优化算法诱导的网路架构在温和条件下即具有万有逼近性质,并弥合了 NODE 和具有一般跨层连接网络的表示能力。该方法还有望与 NAS、 SNN 架构设计等领域结合,以设计更高效的网络架构。

以上是一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
微软工作趋势指数2025显示工作场所容量应变微软工作趋势指数2025显示工作场所容量应变Apr 24, 2025 am 11:19 AM

由于AI的快速整合而加剧了工作场所的迅速危机危机,要求战略转变以外的增量调整。 WTI的调查结果强调了这一点:68%的员工在工作量上挣扎,导致BUR

AI可以理解吗?中国房间的论点说不,但是对吗?AI可以理解吗?中国房间的论点说不,但是对吗?Apr 24, 2025 am 11:18 AM

约翰·塞尔(John Searle)的中国房间论点:对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。 想象一个人,对下巴一无所知

中国的'智能” AI助手回应微软召回的隐私缺陷中国的'智能” AI助手回应微软召回的隐私缺陷Apr 24, 2025 am 11:17 AM

与西方同行相比,中国的科技巨头在AI开发方面的课程不同。 他们不专注于技术基准和API集成,而是优先考虑“屏幕感知” AI助手 - AI T

Docker将熟悉的容器工作流程带到AI型号和MCP工具Docker将熟悉的容器工作流程带到AI型号和MCP工具Apr 24, 2025 am 11:16 AM

MCP:赋能AI系统访问外部工具 模型上下文协议(MCP)让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持,MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而,实施MCP服务器存在一些挑战,包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者:Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc

使用6种AI街头智能策略来建立一家十亿美元的创业使用6种AI街头智能策略来建立一家十亿美元的创业Apr 24, 2025 am 11:15 AM

有远见的企业家采用的六种策略,他们利用尖端技术和精明的商业敏锐度来创造高利润的可扩展公司,同时保持控制权。本指南是针对有抱负的企业家的,旨在建立一个

Google照片更新解锁了您所有图片的惊人Ultra HDRGoogle照片更新解锁了您所有图片的惊人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改变图像增强的游戏规则 Google Photos推出了一个功能强大的Ultra HDR转换工具,将标准照片转换为充满活力的高动态范围图像。这种增强功能受益于摄影师

Descope建立AI代理集成的身份验证框架Descope建立AI代理集成的身份验证框架Apr 24, 2025 am 11:13 AM

技术架构解决了新兴的身份验证挑战 代理身份集线器解决了许多组织仅在开始AI代理实施后发现的问题,即传统身份验证方法不是为机器设计的

Google Cloud Next 2025以及现代工作的未来Google Cloud Next 2025以及现代工作的未来Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的咨询客户,Moor Insights&Strateging。) AI:从实验到企业基金会 Google Cloud Next 2025展示了AI从实验功能到企业技术的核心组成部分的演变,

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能