首页 >科技周边 >人工智能 >AI 工具训练数据不足，但有 6 种解决方案

AI 工具训练数据不足，但有 6 种解决方案

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2024-07-25 22:40:33910浏览

人工智能需要训练数据，但数据是有限的。那么，我们还能如何训练人工智能，使其不断发展并对我们有用呢？

你可能认为互联网及其数据是取之不尽用之不竭的资源，但人工智能工具正在耗尽可供挖掘的数据。现在，不用担心，人工智能的发展不会停止——仍有大量数据可供训练人工智能系统。

1 网上总是有更多数据添加

简而言之，人工智能研究机构 Epoch 表示，用于训练人工智能的高质量数据可能会在 2026 年耗尽。

这里的关键词是“可能”。每年添加到互联网的数据量都在增加，因此在 2026 年之前可能会发生巨大的变化。不过，这是一个合理的估计——无论哪种方式，人工智能系统在某个时候都会用完好的数据。

然而，我们应该记住，每年在线添加约 147 ZB 的数据（根据 Exploding Topics）。仅 1 ZB 就等于 1,000,000,000,000,000,000,000 位数据。按实际价值计算（嗯，有点真实），这相当于超过 300 亿部 4K 电影（真实，但深不可测）。人工智能需要筛选的信息量惊人。

尽管如此，人工智能消耗数据的速度比人类创建数据的速度还要快……

2 人工智能可能会忘记低质量数据

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

当然，并非所有 147 ZB 的数据都是好数据。它的内涵远比表面看到的要多得多。但据估计，到 2050 年，人工智能也将耗尽低质量的语言数据。

路透社报道，曾经是世界上最大的图片存储库之一的 Photobucket 正在洽谈将其庞大的图片库授权给人工智能培训公司。图像数据已经训练了 DALL-E 和 Midjourney 等系统，但即便如此，到 2060 年也可能耗尽。这里还有一个更大的问题：Photobucket 保存了来自 2000 年代社交媒体平台（如 Myspace）的图像，这意味着它们的标准不如当前摄影。这会导致数据质量低下。

Photobucket 并不孤单。 2024 年 2 月，谷歌与 Reddit 达成协议，允许这家搜索巨头在其人工智能训练中使用该社交媒体平台的用户数据。其他社交媒体平台也正在提供用于人工智能培训目的的用户数据；有些人用它来训练内部人工智能模型，例如 Meta 的 Llama。

然而，虽然可以从低质量数据中收集一些信息，但据报道微软正在开发一种让人工智能有选择地“忘记”数据的方法。这主要用于解决知识产权问题，但这也可能意味着工具可能会忘记从低质量数据集中学到的东西。

我们可以向人工智能提供更多数据，而不必过于挑剔；然后，这些人工智能系统可以挑选出最有益的学习内容。

3 语音识别打开视频和播客数据

迄今为止，输入到人工智能工具的数据主要包括文本，以及少量的图像。毫无疑问，这种情况将会改变，而且很可能已经发生了，因为语音识别软件将意味着大量可用的视频和播客也可以训练人工智能。

值得注意的是，OpenAI 使用 680,000 小时的多语言和多任务数据开发了开源自动语音识别 (ASR) 神经网络 Whisper。然后，OpenAI 将 YouTube 视频中超过一百万小时的信息输入到其大型语言模型 GPT-4 中。

这是其他人工智能系统的理想模板，这些系统使用语音识别来转录来自众多来源的视频和音频，并通过其人工智能模型运行该数据。

根据 Statista 的数据，每分钟有超过 500 小时的视频上传到 YouTube，这个数字自 2019 年以来一直保持相当稳定。这还不包括 Dailymotion 和 Podbean 等其他视频和音频平台。如果人工智能能够将注意力转向像这样的新数据集，那么仍有大量信息有待挖掘。

4 人工智能在很大程度上坚持英语

这并不是我们能从 Whisper 学到的全部。 OpenAI 使用 117,000 小时的非英语音频数据训练模型。这尤其有趣，因为许多人工智能系统主要使用英语或通过西方视角观察其他文化进行训练。

从本质上讲，大多数工具都受到其创建者文化的限制。

以 ChatGPT 为例。 2022 年发布后不久，挪威卑尔根大学数字文化教授 Jill Walker Rettberg 尝试了 ChatGPT 并得出结论：

“ChatGPT 对挪威文化了解不多。或者更确切地说，它对挪威文化的了解大概主要是从英语来源学到的……ChatGPT 明确符合美国的价值观和法律。在许多情况下，这些都接近挪威和欧洲的价值观，但情况可能并不总是如此。”那么，人工智能可以开发出更多与他们互动的跨国人员，或者使用更多样化的语言和文化来训练这样的系统。目前，许多人工智能都被限制在一个库中；如果获得世界各地图书馆的钥匙，他们就能成长。

5 家出版社可以帮助开发人工智能

知识产权显然是一个大问题，但一些出版商可以通过签订许可协议来帮助开发人工智能。这意味着为工具提供来自书籍的高质量（即可靠的）数据，而不是从在线来源收集的潜在低质量信息。

事实上，据报道，Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考虑收购“五巨头”出版社之一的 Simon & Schuster。这个想法是利用该公司发表的文献来训练 Meta 自己的人工智能。该交易最终失败，可能是由于该公司在未经作者事先同意的情况下处理知识产权存在道德灰色地带。

显然考虑的另一个选择是购买新游戏的个人许可权。这应该会引起创意人员的极大关注，但如果可用数据耗尽，这仍然是人工智能工具开发的一种有趣方式。

6 合成数据是未来

所有其他解决方案仍然有限，但有一个选项可以让人工智能在未来蓬勃发展：合成数据。人们已经将其作为一种非常现实的可能性进行了调查。

那么，什么是合成数据？从这个意义上说，它是人工智能创造的数据；就像人类创建数据一样，这种方法将使人工智能生成用于训练目的的数据。

实际上，人工智能可以创建令人信服的深度伪造视频。该深度伪造视频可以反馈到人工智能中，以便它可以从本质上是想象的场景中学习。毕竟，这是人类学习的一种主要方式：我们阅读或观看某些东西以了解我们周围的世界。

人工智能很可能已经消耗了合成信息。网上流传的 Deepfakes 会传播错误信息和虚假信息，因此当人工智能系统扫描互联网时，有些系统会受到虚假内容的影响，这是有道理的。

是的，这有阴险的一面。它还可能损害或限制人工智能，强化和传播这些工具所犯的错误。公司正在努力消除后一个问题；尽管如此，“人工智能互相学习并犯错误”仍然是许多科幻噩梦场景的情节点。

人工智能是有争议的。它有很多缺点，但批评者却忽视了它的好处。例如，审计和咨询网络普华永道 [PDF] 表明，到 2030 年，人工智能可为世界经济贡献高达 15.7 万亿美元。

更重要的是，人工智能已经在世界各地得到应用。您今天可能已经以某种形式使用过它，甚至可能没有意识到。现在精灵已经从瓶子里出来了，关键肯定是用可靠、高质量的数据来训练它，这样我们就可以正确地使用它。

人工智能有它的优点和缺点。需要找到一个平衡点。

以上是AI 工具训练数据不足，但有 6 种解决方案的详细内容。更多信息请关注PHP中文网其他相关文章！

if for while using number this idea chatgpt microsoft issue gpt llama midjourney whisper word

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习下一篇：英伟达对话模型ChatQA进化到2.0版本，上下文长度提到128K

查看更多