为什么基于树的模型在表格数据上仍然优于深度学习-人工智能-PHP中文网

首页

科技周边

人工智能

为什么基于树的模型在表格数据上仍然优于深度学习

王林

Apr 08, 2023 pm 04:11 PM

神经网络深度学习树的模型

在这篇文章中，我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。

为什么基于树的模型在表格数据上仍然优于深度学习

论文的注意事项

这篇论文进行了大量的预处理。例如像删除丢失的数据会阻碍树的性能，但是随机森林非常适合缺少数据的情况，如果你的数据非常杂乱：包含大量的特征和维度。RF的鲁棒性和优点使其优于更“先进”的解决方案，因为后者很容易出现问题。

为什么基于树的模型在表格数据上仍然优于深度学习

其余的大部分工作都很标准。我个人不太喜欢应用太多的预处理技术，因为这可能会导致失去数据集的许多细微差别，但论文中所采取的步骤基本上会产生相同的数据集。但是需要说明的是，在评估最终结果时要使用相同的处理方法。

论文还使用随机搜索来进行超参数调优。这也是行业标准，但根据我的经验，贝叶斯搜索更适合在更广泛的搜索空间中进行搜索。

了解了这些就可以深入我们的主要问题了——为什么基于树的方法胜过深度学习?

1、神经网络偏向过于平滑的解决方案

这是作者分享深度学习神经网络无法与随机森林竞争的第一个原因。简而言之，当涉及到非平滑函数/决策边界时，神经网络很难创建最适合的函数。随机森林在怪异/锯齿/不规则模式下做得更好。

为什么基于树的模型在表格数据上仍然优于深度学习

如果我来猜测原因的话，可能是在神经网络中使用了梯度，而梯度依赖于可微的搜索空间，根据定义这些空间是平滑的，所以无法区分尖锐点和一些随机函数。所以我推荐学习诸如进化算法、传统搜索等更基本的概念等 AI 概念，因为这些概念可以在 NN 失败时的各种情况下取得很好的结果。

有关基于树的方法（RandomForests）和深度学习者之间决策边界差异的更具体示例，请查看下图 -

为什么基于树的模型在表格数据上仍然优于深度学习

在附录中，作者对上述可视化进行了下面说明：

在这一部分中，我们可以看到 RandomForest 能够学习 MLP 无法学习的 x 轴（对应日期特征）上的不规则模式。我们展示了默认超参数的这种差异，这是神经网络的典型行为，但是实际上很难（尽管并非不可能）找到成功学习这些模式的超参数。

2、无信息特性会影响类似mlp的神经网络

另一个重要因素，特别是对于那些同时编码多个关系的大型数据集的情况。如果向神经网络输入不相关的特征结果会很糟糕(而且你会浪费更多的资源训练你的模型)。这就是为什么花大量时间在EDA/领域探索上是如此重要。这将有助于理解特性，并确保一切顺利运行。

论文的作者测试了模型在添加随机和删除无用特性时的性能。基于他们的结果，发现了2个很有趣的结果

删除大量特性减少了模型之间的性能差距。这清楚地表明，树型模型的一大优势是它们能够判断特征是否有用并且能够避免无用特征的影响。

与基于树的方法相比，向数据集添加随机特征表明神经网络的衰退要严重得多。ResNet尤其受到这些无用特性的影响。transformer的提升可能是因为其中的注意力机制在一定程度上会有一些帮助。

为什么基于树的模型在表格数据上仍然优于深度学习

对这种现象的一种可能解释是决策树的设计方式。任何学习过 AI 课程的人都会知道决策树中的信息增益和熵的概念。这使得决策树能够通过比较剩下的特性来选择最佳的路径。

回到正题，在表格数据方面，还有最后一件事使 RF 比 NN 表现更好。那就是旋转不变性。

3、NNs 是旋转不变性的，但是实际数据却不是

神经网络是旋转不变的。这意味着如果对数据集进行旋转操作，它不会改变它们的性能。旋转数据集后，不同模型的性能和排名发生了很大的变化，虽然ResNets一直是最差的，但是旋转后他保持原来的表现，而所有其他模型的变化却很大。

为什么基于树的模型在表格数据上仍然优于深度学习

这很现象非常有趣：旋转数据集到底意味着什么?整个论文中也没有详细的细节说明（我已经联系了作者，并将继续跟进这个现象）。如果有任何想法，也请在评论中分享。

但是这个操作让我们看到为什么旋转方差很重要。根据作者的说法，采用特征的线性组合(这就是使ResNets不变的原因)实际上可能会错误地表示特征及其关系。

通过对原始数据的编码获得最佳的数据偏差，这些最佳的偏差可能会混合具有非常不同的统计特性的特征并且不能通过旋转不变的模型来恢复，会为模型提供更好的性能。

总结

这是一篇非常有趣的论文，虽然深度学习在文本和图像数据集上取得了巨大进步，但它在表格数据上的基本没有优势可言。论文使用了 45 个来自不同领域的数据集进行测试，结果表明即使不考虑其卓越的速度，基于树的模型在中等数据（~10K 样本）上仍然是最先进的。

以上是为什么基于树的模型在表格数据上仍然优于深度学习的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍在迅速的工程中，“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍恭喜！您经营一家成功的业务。通过您的网页，社交媒体活动，网络研讨会，会议，免费资源和其他来源，您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍在当今快节奏的软件开发环境中，确保最佳应用程序性能至关重要。监视实时指标，例如响应时间，错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户？ Openai首席执行官说：'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户？”他扮演。阿尔特曼回答说：“我认为我们上次说的是每周5亿个活跃者，而且它正在迅速增长。” “你告诉我，就像在短短几周内翻了一番，”安德森继续说道。 “我说那个私人

pixtral -12b：Mistral AI＆＃039;第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型，即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型？现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下，拥有一个由AI驱动的助手，不仅可以响应您的查询，还可以自主收集信息，执行任务甚至处理多种类型的数据（TEXT，图像和代码）。听起来有未来派？在这个a

生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍金融业是任何国家发展的基石，因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍数据是从社交媒体，金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战，但它提供了

See all articles

热AI工具

热工具

为什么基于树的模型在表格数据上仍然优于深度学习

论文的注意事项

1、神经网络偏向过于平滑的解决方案

2、无信息特性会影响类似mlp的神经网络

3、NNs 是旋转不变性的，但是实际数据却不是

总结

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

SublimeText3 Linux新版

EditPlus 中文破解版

PhpStorm Mac 版本

SublimeText3 Mac版

记事本++7.3.1

热门话题