搜索
首页科技周边人工智能数据拆分的技术和陷阱——训练集、验证集与测试集的使用方式

数据拆分的技术和陷阱——训练集、验证集与测试集的使用方式

为了构建可靠的机器学习模型,数据集的拆分是必不可少的。拆分过程包括将数据集分为训练集、验证集和测试集。本文旨在详细介绍这三个集合的概念、数据拆分的技术以及容易出现的陷阱。

训练集、验证集和测试集

训练集

训练集是用于训练和使模型学习数据中隐藏的特征/模式的数据集。

在每个epoch中,相同的训练数据被重复输入神经网络架构,模型继续学习数据的特征。

训练集应该具有多样化的输入集,以便模型在所有场景下都得到训练,并且可以预测未来可能出现的数据样本。

验证集

验证集是一组数据,与训练集分开,用于在训练期间验证模型性能。

此验证过程提供的信息可帮助调整模型的超参数和配置。该模型在训练集上进行训练,同时,在每个epoch之后对验证集进行模型评估。

将数据集拆分为验证集的主要目的是防止模型过度拟合,即该模型非常擅长对训练集中的样本进行分类,但不能对没有见过的数据进行泛化和准确分类。

测试集

测试集是一组单独的数据,用于在完成训练后测试模型。它在准确度、精确度等方面提供了一个无偏的最终模型性能指标。简单来说,测试集可反映出模型的性能。

如何拆分数据集

在数据集中创建不同的样本和拆分有助于判断真实模型的性能。数据集拆分率取决于数据集中存在的样本数量和模型。

数据集拆分常见推论

如果有多个超参数需要调整,机器学习模型需要更大的验证集来优化模型性能。同样,如果模型的超参数较少或没有超参数,则可以很容易地使用一小组数据来验证模型。

如果模型用例导致错误预测会严重影响模型性能,则最好在每个时期后验证模型以使模型学习不同的场景。

随着数据维度/特征的增加,神经网络函数的超参数也随之增加,使得模型更加复杂。在这些情况下,应将大量数据与验证集一起保存在训练集中。

数据拆分的技术

1.随机抽样

随机抽样是最古老和最流行的划分数据集的方法。顾名思义,数据集被打乱,样本被随机挑选并根据用户给出的百分比放入训练、验证或测试集中。

然而,这种方法有一个明显的缺点。随机抽样在类平衡数据集上效果最佳,即每个数据集类别中样本数量大致相同的数据集。在类不平衡数据集的情况下,这种数据拆分方法可能会产生偏差。

2.分层抽样

分层抽样缓解具有不平衡类分布的数据集中的随机抽样问题。可以保留每个训练集、验证集和测试集中的类分布。分层抽样是一种更公平的数据拆分方式。

3.交叉验证

交叉验证或K-Fold交叉验证是一种更强大的数据拆分技术,其中对不同样本训练和评估模型“K”次。

使用K-Fold交叉验证将机器学习模型暴露给不同的数据分布。一定程度上减轻了在训练和验证集中选择数据时可能出现的偏差。在使用K-Fold交叉验证方案时,通常会报告平均值和标准偏差值。

因此K-Fold交叉验证也存在与随机抽样相同的问题,数据分布可能会出现偏差。可以使用分层,在生成数据的“K”个子集或部分时,保持数据的类比。

数据拆分中的常见陷阱

1.使用低质量的训练数据

由于机器学习算法对训练数据很敏感,即使训练集中的微小变化/错误也会导致模型性能出现重大错误。因此训练数据的质量对于提高模型性能至关重要。

2.过拟合

当机器学习模型无法对未知的数据进行分类时,就会发生过度拟合。训练数据中的噪声或波动被视为特征并由模型学习。这导致模型在训练集中表现出色,但在验证和测试集中表现不佳。

3.过分强调验证和测试集指标

验证集度量是决定模型训练路径的度量。在每个时期之后,机器学习模型都会在验证集上进行评估。根据验证集指标,计算相应的损失项,修改超参数。应选择指标,以便它们对模型性能的整体轨迹产生积极影响。

以上是数据拆分的技术和陷阱——训练集、验证集与测试集的使用方式的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:网易伏羲。如有侵权,请联系admin@php.cn删除
阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

开始使用Meta Llama 3.2 -Analytics Vidhya开始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

AV字节:Meta' llama 3.2,Google的双子座1.5等AV字节:Meta' llama 3.2,Google的双子座1.5等Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

与机器交谈的人类成本:聊天机器人真的可以在乎吗?与机器交谈的人类成本:聊天机器人真的可以在乎吗?Apr 11, 2025 pm 12:00 PM

连接的舒适幻想:我们在与AI的关系中真的在蓬勃发展吗? 这个问题挑战了麻省理工学院媒体实验室“用AI(AHA)”研讨会的乐观语气。事件展示了加油

了解Python的Scipy图书馆了解Python的Scipy图书馆Apr 11, 2025 am 11:57 AM

介绍 想象一下,您是科学家或工程师解决复杂问题 - 微分方程,优化挑战或傅立叶分析。 Python的易用性和图形功能很有吸引力,但是这些任务需要强大的工具

3种运行Llama 3.2的方法-Analytics Vidhya3种运行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式联运AI强力 Meta的最新多模式模型Llama 3.2代表了AI的重大进步,具有增强的语言理解力,提高的准确性和出色的文本生成能力。 它的能力t

使用dagster自动化数据质量检查使用dagster自动化数据质量检查Apr 11, 2025 am 11:44 AM

数据质量保证:与Dagster自动检查和良好期望 保持高数据质量对于数据驱动的业务至关重要。 随着数据量和源的增加,手动质量控制变得效率低下,容易出现错误。

大型机在人工智能时代有角色吗?大型机在人工智能时代有角色吗?Apr 11, 2025 am 11:42 AM

大型机:AI革命的无名英雄 虽然服务器在通用应用程序上表现出色并处理多个客户端,但大型机是专为关键任务任务而建立的。 这些功能强大的系统经常在Heavil中找到

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器