搜索
首页科技周边人工智能研究表明:数据来源仍然是 AI 的主要瓶颈

研究表明:数据来源仍然是 AI 的主要瓶颈

Apr 28, 2023 am 11:49 AM
人工智能大数据

数据是机器的命脉。没有它,你就无法构建任何与 AI 相关的东西。根据 Appen 本周发布的 AI 和机器学习状况报告,许多组织仍在努力获取良好、干净的数据以维持其 AI 和机器学习计划。

根据Appen对人工智能的调查,在人工智能的四个阶段——数据采购、数据准备、模型训练和部署以及人工指导的模型评估中,数据采购消耗的资源最多、花费的时间最多、最具挑战性。 504 位商业领袖和技术专家。

根据 Appen 的调查,平均而言,数据采购消耗组织人工智能预算的 34%,而数据准备和模型测试和部署各占 24%,模型评估各占 15%,该调查由 Harris Poll 进行,包括 IT 决策者、来自美国、英国、爱尔兰和德国的商业领袖和经理以及技术从业者。

就时间而言,数据采购消耗组织大约 26% 的时间,而数据准备和模型测试、部署和模型评估分别占 24% 和 23%。最后,与模型评估 (41%)、模型测试和部署 (38%) 以及数据准备 (34%) 相比,42% 的技术人员认为数据采购是 AI 生命周期中最具挑战性的阶段。

研究表明:数据来源仍然是 AI 的主要瓶颈

据技术专家称,数据采购是人工智能面临的最大挑战。但商界领袖对事物的看法不同……

尽管存在挑战,但组织正在使其发挥作用。据 Appen 称,五分之四 (81%) 的受访者表示,他们有信心拥有足够的数据来支持他们的人工智能计划。这一成功的关键可能在于:绝大多数 (88%) 正在通过使用外部 AI 训练数据提供商(例如 Appen)来扩充他们的数据。

然而,数据的准确性是有问题的。Appen 发现,只有 20% 的调查对象报告数据准确率超过 80%。只有 6%(约十分之一的人)表示他们的数据准确度为 90% 或更高。换句话说,五分之一的数据包含超过 80% 的组织的错误。

考虑到这一点,根据 Appen 的调查,近一半 (46%) 的受访者同意数据准确性很重要,“但我们可以解决它”,这也许并不奇怪。只有 2% 的人表示数据准确性不是一个大需求,而 51% 的人同意这是一个关键需求。

看来,Appen 首席技术官 Wilson Pang 对数据质量重要性的看法与 48% 的客户认为数据质量不重要。

“数据准确性对于 AI 和 ML 模型的成功至关重要,因为质量丰富的数据会产生更好的模型输出以及一致的处理和决策制定,”Pang 在报告中说。“为了获得良好的结果,数据集必须准确、全面且可扩展。”

研究表明:数据来源仍然是 AI 的主要瓶颈

超过 90% 的 Appen 受访者表示他们使用预先标记的数据

Pang在最近的一次采访中告诉表示,深度学习和以数据为中心的 AI 的兴起已将 AI 成功的动力从良好的数据科学和机器学习建模转变为良好的数据收集、管理和标记。对于当今的迁移学习技术来说尤其如此,人工智能从业者从一个大型预训练语言或计算机视觉模型的顶部跳出来,用他们自己的数据重新训练一小部分层。

更好的数据还可以帮助防止不必要的偏见渗入 AI 模型,并通常防止 AI 出现不良结果。澳鹏人工智能专家高级主管 Ilia Shifrin 表示,对于大型语言模型尤其如此。

“随着基于多语言网络爬虫数据训练的大型语言模型 (LLM) 的兴起,公司面临着另一个挑战,”Shifrin 在报告中说。“由于大量有毒的语言,以及训练语料库中的种族、性别和宗教偏见,这些模型经常表现出不良行为。”

Web 数据中的偏见引发了一些棘手的问题,虽然有一些变通方法(改变训练方案、过滤训练数据和模型输出,以及从人类反馈和测试中学习),但需要更多的研究来为“以人为中心”建立一个良好的标准Shifrin 说,LLM 基准和模型评估方法。

据 Appen 称,数据管理仍然是 AI 面临的最大障碍。调查发现,人工智能循环中 41% 的人认为数据管理是最大的瓶颈。缺乏数据排在第四位,30% 的人认为这是 AI 成功的最大障碍。

但也有一些好消息:组织花在管理和准备数据上的时间呈下降趋势。Appen 说,今年这一比例刚刚超过 47%,而去年的报告中为 53%。

研究表明:数据来源仍然是 AI 的主要瓶颈

数据准确性水平可能没有某些组织希望的那么高

“大多数受访者使用外部数据提供商,可以推断,通过外包数据采购和准备,数据科学家正在节省正确管理、清理和标记数据所需的时间,”数据标签公司表示。

然而,从数据中相对较高的错误率来看,也许组织不应该缩减他们的数据采购和准备流程(无论是内部的还是外部的)。在建立和维护 AI 流程方面存在许多相互竞争的需求——聘用合格的数据专业人员是澳鹏确定的另一个首要需求。但是,在数据管理方面取得重大进展之前,组织应继续对其团队施加压力,以继续推动数据质量的重要性。

调查还发现,93% 的组织强烈或在某种程度上同意道德 AI 应该是 AI 项目的“基础”。Appen 首席执行官 Mark Brayan 表示,这是一个良好的开端,但还有很多工作要做。“问题是,许多人都面临着试图用糟糕的数据集构建伟大的人工智能的挑战,这为实现他们的目标创造了一个重要的障碍,” Brayan 在一份新闻稿中说。

根据 Appen 的报告,内部、自定义收集的数据仍然是用于 AI 的组织的大部分数据集,占数据的 38% 到 42%。合成数据的表现出乎意料地强劲,占组织数据的 24% 到 38%,而预先标记的数据(通常来自数据服务提供商)占数据的 23% 到 31%。

特别是合成数据有可能减少敏感人工智能项目中的偏见发生率,97% 的澳鹏受访者表示他们“在开发包容性训练数据集时”使用合成数据。

该报告的其他有趣发现包括:

  • 77% 的组织每月或每季度重新训练他们的模型;
  • 55% 的美国组织声称他们领先于竞争对手,而欧洲为 44%;
  • 42% 的组织报告“广泛”推出人工智能,而 2021 年人工智能现状报告中这一比例为 51%;
  • 7% 的组织报告其 AI 预算超过 500 万美元,而去年这一比例为 9%。

以上是研究表明:数据来源仍然是 AI 的主要瓶颈的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
在LLMS中调用工具在LLMS中调用工具Apr 14, 2025 am 11:28 AM

大型语言模型(LLMS)的流行激增,工具称呼功能极大地扩展了其功能,而不是简单的文本生成。 现在,LLM可以处理复杂的自动化任务,例如Dynamic UI创建和自主a

多动症游戏,健康工具和AI聊天机器人如何改变全球健康多动症游戏,健康工具和AI聊天机器人如何改变全球健康Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

没有关于AI的投入:获胜者,失败者和机遇没有关于AI的投入:获胜者,失败者和机遇Apr 14, 2025 am 11:25 AM

“历史表明,尽管技术进步推动了经济增长,但它并不能自行确保公平的收入分配或促进包容性人类发展,”乌托德秘书长Rebeca Grynspan在序言中写道。

通过生成AI学习谈判技巧通过生成AI学习谈判技巧Apr 14, 2025 am 11:23 AM

易于使用,使用生成的AI作为您的谈判导师和陪练伙伴。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括识别和解释

泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍Apr 14, 2025 am 11:22 AM

在温哥华举行的TED2025会议昨天在4月11日举行了第36版。它有来自60多个国家 /地区的80个发言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主题“人类重新构想”是量身定制的

约瑟夫·斯蒂格利兹(Joseph Stiglitz约瑟夫·斯蒂格利兹(Joseph StiglitzApr 14, 2025 am 11:21 AM

约瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的经济学家,是诺贝尔经济奖的获得者。斯蒂格利茨认为,AI可能会使现有的不平等和合并权力恶化,并在几个主导公司的手中加剧,最终破坏了经济的经济。

什么是图形数据库?什么是图形数据库?Apr 14, 2025 am 11:19 AM

图数据库:通过关系彻底改变数据管理 随着数据的扩展及其特征在各个字段中的发展,图形数据库正在作为管理互连数据的变革解决方案的出现。与传统不同

LLM路由:策略,技术和Python实施LLM路由:策略,技术和Python实施Apr 14, 2025 am 11:14 AM

大型语言模型(LLM)路由:通过智​​能任务分配优化性能 LLM的快速发展的景观呈现出各种各样的模型,每个模型都具有独特的优势和劣势。 有些在创意内容gen上表现出色

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。