搜索
首页科技周边人工智能监督学习与无监督学习:专家定义差距

监督学习与无监督学习:专家定义差距

Nov 23, 2023 pm 06:09 PM
人工智能无监督学习监督学习

需要重写的内容是:了解监督学习、无监督学习和半监督学习的特征,以及它们在机器学习项目中的应用方式

监督学习与无监督学习:专家定义差距

在讨论人工智能技术时,监督学习往往是最受关注的一种方法,因为它通常是创建人工智能模型的最后一步,可以用于图像识别、更好的预测、产品推荐和潜在客户评分等方面

相比之下,无监督学习往往在人工智能开发生命周期的早期在幕后工作:它通常被用来为监督学习的魔力展开奠定基础,就像让经理大放异彩的繁重工作一样。正如后面所解释的,这两种机器学习模式都可以有效地应用于业务问题。

在技术层面上,监督学习与无监督学习之间的区别在于用于创建算法的原始数据是预先标记(监督学习)还是未预先标记(无监督学习)。

我们开始吧

什么是监督学习?

在监督学习中,数据科学家会为算法提供标记过的训练数据,并定义他们希望算法评估相关性的变量

算法的输入数据和输出变量都是通过训练数据来指定的。举个例子,如果您想要使用监督学习的方法来训练算法判断一张图片中是否有猫,您可以为每一张在训练数据中使用的图片创建一个标签,来指示这个图像是否含有猫

正如我们在监督学习的定义中所解释的那样:“[A]计算机算法是在为特定输出标记的输入数据上训练的。该模型经过训练,直到它能够检测到输入数据和输出标签之间的基本模式和关系,使其能够在呈现前所未见的数据时产生准确的标记结果。监督算法的常见类型包括分类、决策树、回归和预测建模,您可以在 Arcitura Education 的机器学习教程中了解这些内容。

监督式机器学习技术用于各种业务应用程序,包括以下内容:

  • 个性化营销。
  • 保险/信贷承销决策。
  • 欺诈检测。
  • 垃圾邮件过滤。

什么是无监督学习?

在无监督学习中,有一种适用于此方法的算法(例如K-means聚类),它是在未标记的数据上进行训练的。该算法会扫描数据集,寻找其中的任何有意义的关联。换句话说,无监督学习会确定数据中的模式和相似性,而不是将其与某些外部度量相关联

当您不知道自己在寻找什么时,这种方法很有用,而当您知道时,这种方法就不那么有用了。如果你向无监督算法展示了数千或数百万张图片,它可能会将图片的子集归类为人类识别为猫科动物的图像。相比之下,在猫与犬科动物的标记数据上训练的监督算法能够高度自信地识别猫的图像。但这种方法有一个权衡:如果监督学习项目需要数百万张标记图像来开发模型,那么机器生成的预测需要大量的人力。

有一个中间地带:半监督学习。

什么是半监督学习?

半监督学习是将无监督学习和监督学习结合的一种有效方法。它通过一定的工作流程,使用无监督学习算法自动产生标签,然后将这些标签输入到监督学习算法中。在该方法中,人类手动标记一些图像,而无监督学习算法则猜测其他图像的标签,最终将所有的标签和图像输入到监督学习算法中,从而创建AI模型

半监督学习的一个好处是可以降低在机器学习中使用大规模数据集的成本。根据企业数据目录平台Alation的联合创始人兼首席创新官Aaron Kalb的说法,如果能够让人类对数百万个样本中的0.01%进行标记,计算机就可以利用这些标签来显著提高其预测准确性

监督学习与无监督学习:专家定义差距

什么是强化学习?

另一种机器学习方法是强化学习。强化学习通常用于教机器完成一系列步骤,不同于监督学习和无监督学习。数据科学家对算法进行编程来执行任务,在确定如何完成任务时给予积极或消极的线索或强化。程序员为奖励设定规则,但让算法自己决定需要采取哪些步骤来最大化奖励,从而完成任务。

什么时候应该使用监督学习与无监督学习?

LinkedIn机器学习经理Shivani Rao表示,采用监督或无监督机器学习方法的最佳实践通常取决于环境,你可以对数据和应用程序做出的假设。

Rao说,使用监督学习与无监督机器学习算法的选择也会随着时间的推移而改变。在模型构建过程的早期阶段,数据通常是未标记的,而标记的数据可以在建模的后期阶段出现。

举个例子,对于预测LinkedIn成员是否会观看课程视频的问题,第一个模型采用无监督技术。在提供这些建议后,记录某人是否单击建议的指标将提供新的数据来生成标签

LinkedIn 还使用这种技术来标记学生可能想要获得的技能的在线课程。人工标记者,例如作者、出版商或学生,可以提供课程教授的精确和准确的技能列表,但他们不可能提供此类技能的详尽列表。因此,可以认为这些数据标记不完整。这些类型的问题可以使用半监督技术来帮助构建一组更详尽的标记。

数据科学和高级分析专家、咨询公司科尔尼(Kearney)的合伙人巴拉特·托塔(Bharath Thota)表示,他的团队选择使用监督学习或无监督学习时,也往往会考虑实际因素。

Thota说:“当有可用的标记数据时,我们选择监督学习作为应用程序,目标是预测或分类未来的观察结果。当没有可用的标记数据时,我们使用无监督学习,目标是通过从数据中识别模式或片段来制定策略。”

Kalb说,Alation数据科学家在内部将无监督学习用于各种应用程序。例如,他们开发了一种人机协作流程,用于将晦涩难懂的数据对象名称翻译成人类语言,例如,将“na_gr_rvnu_ps”翻译成“北美专业服务总收入”。在这种情况下,机器猜测,人类确认,机器学习

“你可以把它想象成一个迭代循环中的半监督学习,创造一个提高准确性的良性循环,”Kalb说。

5种无监督学习技巧

在高层次上,监督学习技术倾向于关注线性回归(将模型拟合到一组数据点以进行预测)或分类问题(图像是否有猫?

非监督学习技术通常采用多种方式对原始数据集进行切片和切块,以补充监督学习的工作,这些方式包括:

数据聚类。具有相似特征的数据点组合在一起,以帮助更有效地理解和探索数据。例如,公司可能会使用数据聚类方法根据客户的人口统计、兴趣、购买行为和其他因素将客户细分为几组。

降维。数据集中的每个变量都被视为一个单独的维度。但是,许多模型通过分析变量之间的特定关系来更好地工作。降维的一个简单例子是将利润用作单一维度,它表示收入减去支出——两个独立的维度。但是,可以使用主成分分析、自动编码器、将文本转换为向量的算法或 T 分布随机邻域嵌入等算法生成更复杂的新变量类型。

降维可以帮助减少过度拟合的问题,在这种问题中,模型适用于小数据集,但不能很好地泛化到新数据。该技术还使公司能够以 2D 或 3D 形式可视化人类可以轻松理解的高维数据。

异常或异常值检测。无监督学习可以帮助识别常规数据分布之外的数据点。识别和删除异常作为数据准备步骤可能会提高机器学习模型的性能。

迁移学习。这些算法利用在相关但不同的任务上训练的模型。例如,迁移学习技术可以很容易地微调在维基百科文章上训练的分类器,以使用正确的主题标记任意类型的新文本。LinkedIn的Rao表示,这是解决没有标签的数据问题的最有效,最快捷的方法之一。

基于图形的算法。Rao说,这些技术试图构建一个图表来捕捉数据点之间的关系。例如,如果每个数据点表示具有技能的 LinkedIn 成员,则可以使用图形来表示成员,其中边缘表示成员之间的技能重叠。图形算法还可以帮助将标签从已知数据点转移到未知但密切相关的数据点。无监督学习还可用于在不同类型的实体(源和目标)之间构建图形。边缘越强,源节点与目标节点的亲和力就越高。例如,LinkedIn 使用它们将成员与基于技能的课程相匹配。

以上是监督学习与无监督学习:专家定义差距的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
及时工程中的思想图是什么及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍 在迅速的工程中,“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍 恭喜!您经营一家成功的业务。通过您的网页,社交媒体活动,网络研讨会,会议,免费资源和其他来源,您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍 在当今快节奏的软件开发环境中,确保最佳应用程序性能至关重要。监视实时指标,例如响应时间,错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户?”他扮演。 阿尔特曼回答说:“我认为我们上次说的是每周5亿个活跃者,而且它正在迅速增长。” “你告诉我,就像在短短几周内翻了一番,”安德森继续说道。 “我说那个私人

pixtral -12b:Mistral AI'第一个多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下,拥有一个由AI驱动的助手,不仅可以响应您的查询,还可以自主收集信息,执行任务甚至处理多种类型的数据(TEXT,图像和代码)。听起来有未来派?在这个a

生成AI在金融部门的应用生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍 金融业是任何国家发展的基石,因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。