GenAI时代的数据治理蓝图

GenAI时代的数据治理蓝图

Nov 20, 2023 pm 05:33 PM

人工智能genai

GenAI时代的数据治理蓝图

随着我们深入ML和GenAI领域，对数据质量的重视变得至关重要。KMS Technology高级技术创新小组的首席技术官John Jeske深入研究了数据治理方法，如数据沿袭跟踪和联合学习，以确保顶级模型的性能。

数据质量是模型可持续性和利益相关者信任的关键。在建模过程中，数据质量使长期维护变得更容易，并使你能够在利益相关者社区中建立用户信心和信心。在包括大规模语言和生成性算法在内的复杂模型中，‘垃圾输入，垃圾输出’的影响会加剧。“Jeske说。

基因AI偏向与数据代表性问题

无论你为用例选择哪种模型，糟糕的数据质量都不可避免地会导致GenAI模型的扭曲。陷阱通常来自培训数据，这些数据错误地表示了公司的范围、客户基础或应用程序范围。

真正的财富在于数据本身，而不是短暂的模型或建模结构。在过去几个月里，随着大量建模框架的涌现，数据作为可货币化资产的价值变得更加突显

KMS Technology软件服务高级副总裁Jeff Scott进一步解释道：“当AI生成的内容与预期输出有偏差时，并非算法错误，而是培训数据不足或扭曲的反映

严格的数据完整性治理

数据治理的最佳实践包括元数据管理、数据管理和自动化质量检查等活动。例如，确保数据来源的可靠性，在获取用于培训和建模的数据时使用经过认证的数据集，以及考虑使用自动化数据质量工具。尽管这可能增加复杂性，但这些工具对于确保数据完整性非常有帮助

为了提高数据质量，我们使用了提供数据有效性、完整性检查和时间一致性等属性的工具，这促进了可靠、一致的数据，而这对于健壮的AI模型来说是不可或缺的。

AI发展中的责任追究和持续改进

在每个人看来，数据都是一个问题。在公司内，分配数据治理的责任是一项重要任务

最重要的是确保功能按设计工作，并且从潜在客户的角度来看，正在训练的数据是合理的。反馈加强了学习，然后在下一次训练模型时考虑到反馈，从而调用持续改进，直到信任点。

我们的工作流程中，AI和ML模型在公开推出之前都要经过严格的内部测试。数据工程团队不断收到反馈，允许对模型进行迭代改进，以最大限度地减少偏差和其他异常情况

风险管理与客户信任

数据治理需要在相关的业务领域进行数据管理，并且需要有主题专家持续参与，以确保团队和系统中的数据得到适当的整理和一致的负责任

必须了解与接收来自技术的不准确结果相关的风险，公司必须评估其透明度，从数据来源和处理知识产权到整体数据质量和完整性。

透明度对客户的信任是不可或缺的，数据治理不仅仅是一项技术工作，由于风险从不准确的AI预测转移到最终用户，它还会影响公司的声誉。

随着GenAI的不断发展，数据治理的掌握变得愈发重要。这不仅仅是为了保证数据质量，也是为了理解数据与AI模型之间的复杂关系。这种洞察力对于技术进步、业务健康以及维护利益相关者和更广泛公众的信任至关重要

以上是GenAI时代的数据治理蓝图的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

外推指南

外推指南Apr 15, 2025 am 11:38 AM

介绍假设有一个农民每天在几周内观察农作物的进展。他研究了增长率，并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义

软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI（被定义为AI系统，旨在使用近似推理，模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。但是这对业务意味着什么

为AI前沿的不断发展的安全框架

为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变，AI需要专门为AI独特需求而设计的新型安全解决方案。云计算和安全课程的兴起在

生成AI的3种方法放大了企业家：当心平均值！

生成AI的3种方法放大了企业家：当心平均值！Apr 15, 2025 am 11:33 AM

企业家，并使用AI和Generative AI来改善其业务。同时，重要的是要记住生成的AI，就像所有技术一样，都是一个放大器 - 使得伟大和平庸，更糟。严格的2024研究O

Andrew Ng的新简短课程

Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量：深入研究安德鲁·NG的新课程想象一个未来，机器可以完全准确地理解和回答您的问题。这不是科幻小说；多亏了AI的进步，它已成为R

大语言模型（LLM）中的幻觉是不可避免的吗？

大语言模型（LLM）中的幻觉是不可避免的吗？Apr 15, 2025 am 11:31 AM

大型语言模型（LLM）和不可避免的幻觉问题您可能使用了诸如Chatgpt，Claude和Gemini之类的AI模型。这些都是大型语言模型（LLM）的示例，在大规模文本数据集上训练的功能强大的AI系统

60％的问题 - AI搜索如何消耗您的流量

60％的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明，根据行业和搜索类型，AI概述可能导致有机交通下降15-64％。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心Apr 15, 2025 am 11:26 AM

埃隆大学（Elon University）想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”，得出的结论是，大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

4 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

4 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

4 周前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解锁Myrise中的所有内容

1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合，这些列表在安全评估过程中经常使用，都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表，帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上，他就可以访问到所需的每种类型的列表。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序，非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具，帮助Web开发人员更好地理解保护Web应用程序的过程，并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞，难度各不相同。请注意，该软件中

mPDF

mPDF

mPDF是一个PHP库，可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件，并处理不同的语言。与原始脚本如HTML2FPDF相比，它的速度较慢，并且在使用Unicode字体时生成的文件较大，但支持CSS样式等，并进行了大量增强。支持几乎所有语言，包括RTL（阿拉伯语和希伯来语）和CJK（中日韩）。支持嵌套的块级元素（如P、DIV），

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

热门话题

gmail邮箱登陆入口在哪里

7517

15

1378

52

steam的账户名称是什么格式

79

11

win11激活密钥永久

53

19

NYT连接提示和答案

21

66