搜索
首页科技周边人工智能数据管理是生成式人工智能健康发展的关键

2023年成为人工智能时代的正式开端,几乎每个人都在谈论ChatGPT。

数据管理是生成式人工智能健康发展的关键

像ChatGPT这样的生成式人工智能语言模型吸引了我们的目光和兴趣,因为我们第一次能够看到人工智能像真人一样与我们进行对话,并生成我们认为有创意的文章、诗歌和其他新内容。生成型人工智能解决方案似乎充满了更快、更好的创新、生产力和价值实现的突破性潜力。然而,它们的局限性尚未得到广泛关注,它们的数据隐私和数据管理最佳实践也未得到广泛理解。

最近,由于对人工智能技术的使用缺乏了解和足够的监管,科技和安全界的许多人发出了警告。我们已经看到了对人工智能工具输出的可靠性、IP(知识产权)和敏感数据泄露以及侵犯隐私和安全的担忧。

三星与ChatGPT的事件成为头条新闻,此前这家科技巨头无意中将自己的秘密泄露给了人工智能。并非只有三星:Cyberhaven的一项研究发现,4%的员工将敏感的企业数据放入了大型语言模型中。许多人不知道,当他们用公司数据训练模型时,人工智能公司可能能够在其他地方重用这些数据。

网络安全情报公司Recorded Future透露:“在ChatGPT发布的几天内,我们在暗网和特殊访问论坛上发现了许多威胁参与者,他们共享有缺陷但功能强大的恶意软件、社会工程教程、赚钱计划等,所有这些都是通过使用ChatGPT实现的。”

在隐私方面,当个人注册像ChatGPT这样的工具时,它可以像今天的搜索引擎一样访问IP地址、浏览器设置和浏览行为。但风险更高,因为“未经个人同意,它可能会披露政治信仰或性取向,并可能意味着尴尬甚至毁掉职业生涯的信息被发布。”私人互联网接入公司的工程总监Jose Blaya说。

显然,我们需要更好的法规和标准来实施这些新的人工智能技术。但是,关于数据治理和数据管理的重要作用,却缺乏讨论——但这在企业采用和安全使用人工智能方面发挥着关键作用。

一切都与数据有关

以下是我们应该关注的三个领域:

数据治理和训练数据的透明度:一个核心问题围绕着专有的预训练人工智能模型或大型语言模型(LLM)。使用LLM的机器学习程序包含了来自许多不同来源的大量数据集。问题是,LLM是一个黑匣子,它对源数据几乎没有透明度。我们不知道这些来源包含欺诈数据,是否包含PII(个人身份信息),是否可信、无偏见、准确或合法。LLM研发公司并不共享其源数据。

《华盛顿邮报》分析了谷歌横跨1500万个网站的C4数据集,发现了数十个令人不快的网站,其中包含煽动性和PII数据以及其他可疑内容。我们需要数据治理,这需要所使用的数据源的透明度以及这些来源所含知识的有效性/可信度。例如,你的人工智能机器人可能正在对未经核实的来源或假新闻网站的数据进行培训,从而对其知识产生偏见,而这些知识现在已成为你公司新政策或研发计划的一部分。

数据隔离和数据域:目前,不同的人工智能供应商在如何处理你提供的数据有不同的隐私政策。无意中,员工可能会在他们的提示中向LLM提供数据,而不知道该模型可能会将数据纳入其知识库。公司可能会在不知情的情况下将商业秘密、软件代码和个人数据暴露给世界。

一些人工智能解决方案提供了变通方法,如采用API,通过将您的数据排除在预先训练的模型之外来保护数据隐私,但这同时限制了人工智能的功能价值。因为理想的用例是在保持数据隐私的同时,用你特定情况数据增强预先训练的模型。

一个解决方案是让经过预训练的人工智能工具理解数据“域”的概念。培训数据的“通用”域用于预培训,并在通用应用之间共享,而基于“专有数据”的培训模型则安全地限制在组织的边界内。数据管理可以确保创建和保留这些边界。

人工智能的衍生作品:数据管理的第三个领域涉及人工智能过程及其最终所有者产生的数据。比方说,使用人工智能机器人来解决编码问题。如果某件事做得不正确,导致出现错误或错误,通常我们会知道谁做了什么来调查和修复。但有了人工智能,组织很难界定人工智能执行的任务所产生的任何错误或不良结果由谁负责——你不能责怪机器:在某种程度上,是人为造成了错误或糟糕的结果。

更复杂的问题是IP,你拥有用生成人工智能工具创作的作品的IP吗?你会在法庭上如何辩护?据《哈佛商业评论》报道,艺术界已经开始对某些人工智能应用提起索赔诉讼。

现在要考虑数据管理策略

在早期,我们不知道人工智能在坏数据、隐私和安全、知识产权和其他敏感数据集的风险方面有什么不知道的。人工智能也是一个广泛的领域,有多种方法,如LLM、基于业务流程逻辑的自动化,这些只是通过数据治理政策和数据管理实践的结合来探索的一些主题:

暂停对生成人工智能的实验,直到你有了一个监督战略、政策、以及降低风险和验证结果的程序。

纳入数据管理指导原则,首先要对自己的数据有一个坚实的了解,无论数据驻留在哪里。您的敏感PII和客户数据在哪里?你有多少IP数据,这些文件位于哪里?你能监控使用情况,以确保这些数据类型不会被无意中输入人工智能工具,并防止安全或隐私泄露吗?

不要向人工智能应用程序提供超出所需的数据,也不要共享任何敏感的专有数据。锁定/加密IP和客户数据以防止其被共享。

了解人工智能工具如何以及是否可以对数据源透明。

供应商能否保护您的数据?谷歌在其博客中分享了这一声明,但“如何”尚不清楚:“无论一家公司是在Vertex AI中培训模型,还是在Generative AI App Builder上建立客户服务体验,私人数据都是保密的,不会在更广泛的基础模型培训语料库中使用。”阅读每个人工智能工具的合同语言,了解你提供给它的任何数据是否可以保密。

标记业主、委托项目的个人或部门衍生作品的数据。这很有帮助,因为你可能最终要对你公司制作的任何作品负责,你想知道人工智能是如何融入这个过程的,是由谁参与的。

确保域之间数据的可移植性。例如,一个团队可能想要剥离其IP和识别特征的数据,并将其输入到通用训练数据集中以供将来使用。这一过程的自动化和跟踪至关重要。

随时了解正在制定的任何行业法规和指导方针,并与其他组织的同行交谈,了解他们如何应对风险缓解和数据管理。

在开始任何生成式人工智能项目之前,请咨询法律专家,以了解数据泄露、隐私和IP侵犯、恶意行为者或虚假/错误结果时的风险和流程。

企业中人工智能的实用方法

人工智能发展迅速,前景广阔,有可能以前所未有的速度加速创新、削减成本和改善用户体验。但与大多数强大的工具一样,人工智能需要在正确的背景下谨慎使用,并设置适当的数据治理和数据管理护栏。人工智能的数据管理尚未出现明确的标准,这是一个需要进一步探索的领域。同时,企业在使用人工智能应用程序之前,应谨慎行事,确保清楚了解数据暴露、数据泄露和潜在的数据安全风险。

以上是数据管理是生成式人工智能健康发展的关键的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
大多数使用的10个功率BI图 - 分析Vidhya大多数使用的10个功率BI图 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

AI的专家系统AI的专家系统Apr 16, 2025 pm 12:00 PM

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

三个最好的氛围编码器分解了这项代码中的AI革命三个最好的氛围编码器分解了这项代码中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

跑道AI的Gen-4:AI蒙太奇如何超越荒谬跑道AI的Gen-4:AI蒙太奇如何超越荒谬Apr 16, 2025 am 11:45 AM

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

如何注册5天ISRO AI免费课程? - 分析Vidhya如何注册5天ISRO AI免费课程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑Apr 16, 2025 am 11:37 AM

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

提示:chatgpt生成假护照提示:chatgpt生成假护照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器