合成数据：机器学习的未来-人工智能-PHP中文网

首页

科技周边

人工智能

合成数据：机器学习的未来

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 08:41 PM

机器学习深度学习合成数据

译者 | 布加迪

审校 | 孙淑娟

数据可谓是机器学习模型的命脉。但是当这种宝贵资源的访问受到限制时会发生什么？正如许多项目和公司开始展现的那样，这时候合成数据就算不是一种出色的选择，也是一种可行的选择。

合成数据：机器学习的未来

什么是合成数据？

合成数据是人工生成的信息，不是通过直接测量获得。“假”数据本质上不是新的概念或革命性的概念。它实际上是为缺少正常运行所需的可用或必要信息的模型生成测试或训练数据的一种方法。

过去，缺少数据导致了使用随机生成的一组数据点的便捷方法。尽管这对于教学和测试用途可能已经足够了，但随机数据不是您想要拿来训练任何类型的预测模型的数据。这就是合成数据概念的不同之处，它很可靠。

合成数据本质上是一种独特的概念，即我们可以巧妙地生成随机化数据。因此，这种方法可以应用于更复杂的用例，而不仅仅是测试。

如何生成合成数据？

虽然生成合成数据的方式与随机数据没什么不同——只是通过更复杂的输入集，但合成数据确实有不同的目的，因此有独特的要求。

合成方法基于并仅限于预先作为输入而馈入的某些标准。实际上，它不是随机的。它基于一组具有特定分布和标准的样本数据，这些标准决定了数据点的可能范围、分布和频次。大致说来，目的是复制真实数据以填充更大的数据集，然后该数据集将足够庞大，以便训练机器学习模型。

在探索用于提炼合成数据的深度学习方法时，这种方法变得特别令人关注。算法可以相互竞争，目的是在生成和识别合成数据的能力方面相互超越。实际上，这里的目的是搞一场人工军备竞赛，以生成超现实的数据。

为什么需要合成数据？

如果我们不能收集推进文明所需的宝贵资源，就会找到一种创造宝贵资源的方法。这个原则现在同样适用于机器学习和人工智能的数据领域。

在训练算法时，拥有非常大的数据样本量至关重要，否则算法识别的模式有可能对于实际应用来说过于简单。这实际上非常合乎逻辑。正如人类智能往往采取最容易的途径来解决问题，训练机器学习和人工智能时也经常发生同样的情况。

比如说，不妨将这运用于对象识别算法，该算法可以从一组猫图像中准确识别狗。如果数据量太少，AI就有可能依赖不是它试图识别的对象的基本特征的模式。在这种情况下，AI可能仍然有效，但是遇到不遵循最初识别的模式的数据时，就会失效。

合成数据如何用于训练AI？

那么，解决办法是什么？我们画了很多略有不同的动物，迫使网络找到图像的底层结构，而不仅仅是某些像素的位置。但不是手工绘制一百万条狗，最好构建一个系统，专门用于绘制狗，可用于训练分类算法——这实际上是我们在提供合成数据以便训练机器学习时所做的事情。

然而，这种方法存在明显的缺陷。仅仅凭空生成数据代表不了真实世界，因此会导致算法在遇到真实数据时很可能无法运行。解决方案是收集数据子集，分析和识别其中的趋势和范围，然后使用这些数据生成大量随机数据，这些数据很可能代表我们自行收集所有数据后数据的样子。

这也是合成数据的价值所在。我们再也不必无休止地收集数据，然后在使用之前需要清理和处理这些数据。

合成数据为何能解决日益受到关注的数据隐私问题？

全世界目前正在经历一场非常剧烈的转变，尤其是在欧盟：隐私和所生成的数据越来越受到保护。在机器学习和AI领域，加强数据保护是老大难问题。受限制的数据常常正是训练算法为最终用户执行和提供价值所需要的数据，尤其是对于B2C解决方案而言。

个人决定使用解决方案并因此批准使用他们的数据时，隐私问题通常会得到解决。这里的问题是，在您拥有提供足够价值的解决方案、因而愿意交出个人数据之前，很难让用户向您提供其个人数据。因此，供应商常常会陷入先有鸡还是先有蛋的困境。

合成数据就是解决方案，公司可以通过早期采用者获得数据子集。之后，它们可以使用这些信息作为基础，以便生成足够的数据用于训练机器学习和AI。这种方法可以大大减少对私有数据的费时又费钱的需求，仍可以为实际用户开发算法。

对于医疗保健、银行和法律等某些行业而言，合成数据提供了一种更容易访问以前无法获得的大量数据的方法，消除了新的和更先进的算法通常面临的制约因素。

合成数据能否取代真实数据？

真实数据的问题在于它不是为了训练机器学习和AI算法而生成的，它只是我们周围发生的事件的副产品。如前所述，这显然限制了收集数据的可用性和易用性，还限制了数据的参数和可能破坏结果的缺陷（异常值）的可能性。这就是为什么可以定制和控制的合成数据在训练模型时更高效。

然而，尽管非常适用于训练场景，但合成数据将不可避免地始终依赖至少一小部分真实数据用于自身的创建。所以合成数据永远不会取代它所依赖的初始数据。更现实地说，它将大幅减少算法训练所需的真实数据量，这个过程需要比测试多出一大截的数据——通常80%的数据用于训练，另外20%的数据用于测试。

最后，如果处理得当，合成数据提供了一种更快捷、更有效的方式来获取我们需要的数据，成本比从现实世界获取数据的成本更低，同时减少了烦人的数据隐私问题。

原文标题：Synthetic data: The future of machine learning，作者：Christian Lawaetz Halvorsen

以上是合成数据：机器学习的未来的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

Gemma范围：Google＆＃039;用于凝视AI的显微镜Apr 17, 2025 am 11:55 AM

使用Gemma范围探索语言模型的内部工作了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包，为研究人员提供了一种强大的探索方式

谁是商业智能分析师以及如何成为一位？Apr 17, 2025 am 11:44 AM

解锁业务成功：成为商业智能分析师的指南想象一下，将原始数据转换为驱动组织增长的可行见解。这是商业智能（BI）分析师的力量 - 在GU中的关键作用

如何在SQL中添加列？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

业务分析师与数据分析师Apr 17, 2025 am 11:38 AM

介绍想象一个繁华的办公室，两名专业人员在一个关键项目中合作。业务分析师专注于公司的目标，确定改进领域，并确保与市场趋势保持战略一致。 simu

什么是Excel中的Count和Counta？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 数据计数与分析：COUNT 和 COUNTA 函数详解精确的数据计数和分析在 Excel 中至关重要，尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的，其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格，但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节，突出它们独特的特性和区别，并学习如何在数据分析中应用它们。要点概述理解 COUNT 和 COU