人工智能需要训练数据,但数据是有限的。那么,我们还能如何训练人工智能,使其不断发展并对我们有用呢?
你可能认为互联网及其数据是取之不尽用之不竭的资源,但人工智能工具正在耗尽可供挖掘的数据。现在,不用担心,人工智能的发展不会停止——仍有大量数据可供训练人工智能系统。
简而言之,人工智能研究机构 Epoch 表示,用于训练人工智能的高质量数据可能会在 2026 年耗尽。
这里的关键词是“可能”。每年添加到互联网的数据量都在增加,因此在 2026 年之前可能会发生巨大的变化。不过,这是一个合理的估计——无论哪种方式,人工智能系统在某个时候都会用完好的数据。
然而,我们应该记住,每年在线添加约 147 ZB 的数据(根据 Exploding Topics)。仅 1 ZB 就等于 1,000,000,000,000,000,000,000 位数据。按实际价值计算(嗯,有点真实),这相当于超过 300 亿部 4K 电影(真实,但深不可测)。人工智能需要筛选的信息量惊人。
尽管如此,人工智能消耗数据的速度比人类创建数据的速度还要快……
当然,并非所有 147 ZB 的数据都是好数据。它的内涵远比表面看到的要多得多。但据估计,到 2050 年,人工智能也将耗尽低质量的语言数据。
路透社报道,曾经是世界上最大的图片存储库之一的 Photobucket 正在洽谈将其庞大的图片库授权给人工智能培训公司。图像数据已经训练了 DALL-E 和 Midjourney 等系统,但即便如此,到 2060 年也可能耗尽。这里还有一个更大的问题:Photobucket 保存了来自 2000 年代社交媒体平台(如 Myspace)的图像,这意味着它们的标准不如当前摄影。这会导致数据质量低下。
Photobucket 并不孤单。 2024 年 2 月,谷歌与 Reddit 达成协议,允许这家搜索巨头在其人工智能训练中使用该社交媒体平台的用户数据。其他社交媒体平台也正在提供用于人工智能培训目的的用户数据;有些人用它来训练内部人工智能模型,例如 Meta 的 Llama。
然而,虽然可以从低质量数据中收集一些信息,但据报道微软正在开发一种让人工智能有选择地“忘记”数据的方法。这主要用于解决知识产权问题,但这也可能意味着工具可能会忘记从低质量数据集中学到的东西。
我们可以向人工智能提供更多数据,而不必过于挑剔;然后,这些人工智能系统可以挑选出最有益的学习内容。
迄今为止,输入到人工智能工具的数据主要包括文本,以及少量的图像。毫无疑问,这种情况将会改变,而且很可能已经发生了,因为语音识别软件将意味着大量可用的视频和播客也可以训练人工智能。
值得注意的是,OpenAI 使用 680,000 小时的多语言和多任务数据开发了开源自动语音识别 (ASR) 神经网络 Whisper。然后,OpenAI 将 YouTube 视频中超过一百万小时的信息输入到其大型语言模型 GPT-4 中。
这是其他人工智能系统的理想模板,这些系统使用语音识别来转录来自众多来源的视频和音频,并通过其人工智能模型运行该数据。
根据 Statista 的数据,每分钟有超过 500 小时的视频上传到 YouTube,这个数字自 2019 年以来一直保持相当稳定。这还不包括 Dailymotion 和 Podbean 等其他视频和音频平台。如果人工智能能够将注意力转向像这样的新数据集,那么仍有大量信息有待挖掘。
这并不是我们能从 Whisper 学到的全部。 OpenAI 使用 117,000 小时的非英语音频数据训练模型。这尤其有趣,因为许多人工智能系统主要使用英语或通过西方视角观察其他文化进行训练。
从本质上讲,大多数工具都受到其创建者文化的限制。
以 ChatGPT 为例。 2022 年发布后不久,挪威卑尔根大学数字文化教授 Jill Walker Rettberg 尝试了 ChatGPT 并得出结论:
5 家出版社可以帮助开发人工智能“ChatGPT 对挪威文化了解不多。或者更确切地说,它对挪威文化的了解大概主要是从英语来源学到的……ChatGPT 明确符合美国的价值观和法律。在许多情况下,这些都接近挪威和欧洲的价值观,但情况可能并不总是如此。”那么,人工智能可以开发出更多与他们互动的跨国人员,或者使用更多样化的语言和文化来训练这样的系统。目前,许多人工智能都被限制在一个库中;如果获得世界各地图书馆的钥匙,他们就能成长。
7 人工智能是有争议的。它有很多缺点,但批评者却忽视了它的好处。例如,审计和咨询网络普华永道 [PDF] 表明,到 2030 年,人工智能可为世界经济贡献高达 15.7 万亿美元。 更重要的是,人工智能已经在世界各地得到应用。您今天可能已经以某种形式使用过它,甚至可能没有意识到。现在精灵已经从瓶子里出来了,关键肯定是用可靠、高质量的数据来训练它,这样我们就可以正确地使用它。 人工智能有它的优点和缺点。需要找到一个平衡点。
以上是AI 工具训练数据不足,但有 6 种解决方案的详细内容。更多信息请关注PHP中文网其他相关文章!