搜索
首页科技周边人工智能改进后的Dropout可用于缓解欠拟合问题。

2012 年,Hinton 等人在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了 dropout。同年,AlexNet 的出现开启了深度学习的新纪元。AlexNet 使用 dropout 显著降低了过拟合,并对其在 ILSVRC 2012 竞赛中的胜利起到了关键作用。可以这么说,如果没有 dropout,我们目前在深度学习领域看到的进展可能会被推迟数年。

自 dropout 推出以后,它被广泛用作正则化器,降低神经网络中的过拟合。dropout 使用概率 p 停用每个神经元,防止不同的特征相互适应。应用 dropout 之后,训练损失通常增加,而测试误差减少,从而缩小模型的泛化差距。深度学习的发展不断引入新的技术和架构,但 dropout 依然存在。它在最新的 AI 成果中继续发挥作用,比如 AlphaFold 蛋白质预测、DALL-E 2 图像生成等,展现出了通用性和有效性。

尽管 dropout 持续流行,但多年来其强度(以drop rate p 表示)一直在下降。最初的 dropout 工作中使用了 0.5 的默认drop rate。然而近年来常常采用较低的drop rate,比如 0.1,相关示例可见训练 BERT 和 ViT。这一趋势的主要动力是可用训练数据的爆炸式增长,使得过拟合越来越困难。加之其他因素,我们可能很快会遇到更多欠拟合而非过拟合问题。

近日在一篇论文《Dropout Reduces Underfitting》中,Meta AI、加州大学伯克利分校等机构的研究者展示了如何使用 dropout 来解决欠拟合问题。

论文地址:https://arxiv.org/abs/2303.01500

他们首先通过对梯度范数的有趣观察来研究 dropout 的训练动态,然后得出了一个关键的实证发现:在训练初始阶段,dropout 降低小批量的梯度方差,并允许模型在更一致的方向上更新。这些方向也更与整个数据集的梯度方向保持一致,具体如下图 1 所示。

因此,模型可以更有效地优化整个训练集的训练损失,而不会受到个别小批量的影响。换句话说,dropout 抵消了随机梯度下降(SGD)并防止训练早期采样小批量的随机性所造成的过度正则化。

改进Hinton的Dropout:可以用来减轻欠拟合了

基于这一发现,研究者提出了 early dropout(即 dropout 仅在训练早期使用),来帮助欠拟合模型更好地拟合。与无 dropout 和标准 dropout 相比,early dropout 降低了最终的训练损失。相反,对于已经使用标准 dropout 的模型,研究者建议在早期训练 epoch 阶段移除 dropout 以降低过拟合。他们将这一方法称为 late dropout,并证明它可以提升大模型的泛化准确率。下图 2 比较了标准 dropout、early 和 late dropout。

改进Hinton的Dropout:可以用来减轻欠拟合了

研究者在图像分类和下游任务上使用不同的模型来评估 early dropout 和 late dropout,结果显示二者始终比标准 dropout 和无 dropout 产生了更好的效果。他们希望自己的研究发现可以为 dropout 和过拟合提供新颖的见解,并激发人们进一步开发神经网络正则化器。

分析与验证

在提出 early dropout 和 late dropout 之前,该研究探讨了是否可以使用 dropout 作为减少欠拟合的工具。该研究使用其提出的工具和指标对 dropout 的训练动态进行了详细分析,并比较了 ImageNet 上两个 ViT-T/16 的训练过程(Deng et al., 2009):一个没有 dropout 作为基线;另一个在整个训练过程中有 0.1 的 dropout 率。​

梯度范数(norm)。该研究首先分析了 dropout 对梯度 g 强度的影响。如下图 6(左)所示,dropout 模型产生范数较小的梯度,表明它在每次梯度更新时采用较小的步长(step)。

模型距离。由于梯度步长更小,我们期望 dropout 模型相对于其初始点移动的距离比基线模型更小。如下图 6(右)所示,该研究绘制了每个模型与其随机初始化的距离。然而,令人惊讶的是,dropout 模型实际上比基线模型移动了更大的距离,这与该研究最初基于梯度范数的预期相反。

改进Hinton的Dropout:可以用来减轻欠拟合了

梯度方向方差。该研究首先假设 dropout 模型在小批量中产生更一致的梯度方向。下图 7 所示的方差与假设基本一致。直到一定的迭代次数(大约 1000 次)以后,dropout 模型和基线模型的梯度方差都在一个较低的水平波动。

改进Hinton的Dropout:可以用来减轻欠拟合了

梯度方向误差。然而,正确的梯度方向应该是什么?为了拟合训练数据,基本目标是最小化整个训练集的损失,而不仅仅是任何一个小批量的损失。该研究在整个训练集上计算给定模型的梯度,其中 dropout 设置为推理模式以捕获完整模型的梯度。梯度方向误差如下图 8 所示。

改进Hinton的Dropout:可以用来减轻欠拟合了

基于上述分析,该研究发现尽早使用 dropout 可以潜在地提高模型对训练数据的拟合能力。而是否需要更好地拟合训练数据取决于模型是处于欠拟合还是过拟合状态,这可能很难精确定义。该研究使用如下标准:

  • 如果一个模型在标准 dropout 下泛化得更好,则认为它处于过拟合状态;
  • 如果模型在没有 dropout 的情况下表现更好,则认为它处于欠拟合状态。

模型所处的状态不仅取决于模型架构,还取决于所使用的数据集和其他训练参数。

然后,该研究提出了 early dropout 和 late dropout 两种方法

early dropout。在默认设置下,欠拟合状态下的模型不使用 dropout。为了提高其适应训练数据的能力,该研究提出 early dropout:在某个迭代之前使用 dropout,然后在其余的训练过程中禁用 dropout。该研究实验表明,early dropout 减少了最终的训练损失并提高了准确性。

late dropout。过拟合模型的训练设置中已经包含了标准的 dropout。在训练的早期阶段,dropout 可能会无意中造成过拟合,这是不可取的。为了减少过拟合,该研究提出 late dropout:在某个迭代之前不使用 dropout,而是在其余的训练中使用 dropout。

该研究提出的方法在概念和实现上都很简单,如图 2 所示。实现时需要两个超参数:1) 在打开或关闭 dropout 之前等待的 epoch 数;2)drop rate p,类似于标准的 dropout rate。该研究表明,这两种超参数可以保证所提方法的稳健性。

实验及结果

研究者在具有 1000 个类和 1.2M 张训练图像的 ImageNet-1K 分类数据集上进行了实证评估,并报告了 top-1 验证准确率。

具体结果首先如下表 1(上部)所示,early dropout 持续提升测试准确率,降低训练损失,表明早期阶段的 dropout 有助于模型更好地拟合数据。研究者还展示了使用 drop rate 为 0.1 时与标准 dropout、随机深度(s.d.)的比较结果,这两者都对模型具有负面影响。

此外,研究者将训练 epoch 增加一倍并减少 mixup 和 cutmix 强度,从而改进了这些小模型的方法。下表 1(底部)的结果表明,基线准确率显著提升,有时甚至大大超越了以往工作的结果。

改进Hinton的Dropout:可以用来减轻欠拟合了

为了评估 late dropout,研究者选择了更大的模型,即分别具有 59M 和 86M 参数的 ViT-B 和 Mixer-B,使用了基础的训练方法。

结果如下表 3 所示,与标准 s.d. 相比,late s.d. 提升了测试准确率。这一提升是在保持 ViT-B 或增加 Mixer-B 训练损失的同时实现的,表明 late s.d. 有效降低了过拟合。

改进Hinton的Dropout:可以用来减轻欠拟合了

最后,研究者在下游任务上对预训练 ImageNet-1K 模型进行微调,并对它们进行评估。下游任务包括 COCO 目标检测与分割、ADE20K 语义分割以及在 C-100 等五个数据集上的下游分类。目标是在微调阶段不使用 early dropout 或 late dropout 的情况下评估学得的表示。

结果如下表 4、5 和 6 所示,首先当在 COCO 上进行微调时,使用 early dropout 或 s.d. 进行预训练的模型始终保持优势。

改进Hinton的Dropout:可以用来减轻欠拟合了

其次对于 ADE20K 语义分割任务而言,使用本文方法进行预训练的模型优于基准模型。

改进Hinton的Dropout:可以用来减轻欠拟合了

最后是下游分类任务,本文方法在大多数分类任务上提升了泛化性能。

改进Hinton的Dropout:可以用来减轻欠拟合了

更多技术细节及实验结果请参阅原论文。

以上是改进后的Dropout可用于缓解欠拟合问题。的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

AI分析师的崛起:为什么这可能是AI革命中最重要的工作AI分析师的崛起:为什么这可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近与领先的企业分析平台Alteryx首席执行官安迪·麦克米伦(Andy Macmillan)的对话强调了这一在AI革命中的关键但不足的作用。正如Macmillan所解释的那样,原始业务数据与AI-Ready Informat之间的差距

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。