搜索
首页科技周边人工智能解读CRISP-ML(Q):机器学习生命周期流程

译者 | 布加迪

审校 | 孙淑娟

目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。

解读CRISP-ML(Q):机器学习生命周期流程

图1. 机器学习开发生命周期流程

使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。

CRISP-ML(Q)有六个单独的阶段:

1. 业务和数据理解

2. 数据准备

3. 模型工程

4. 模型评估

5. 模型部署

6. 监控和维护

这些阶段需要不断迭代和探索,以构建更好的解决方案。即使框架中有顺序之分,后一阶段的输出可以决定我们要不要重新检查前一阶段。

解读CRISP-ML(Q):机器学习生命周期流程

图2. 每个阶段的质量保证

质量保证方法被引入到框架的每个阶段。这套方法有要求和约束,比如性能指标、数据质量要求和稳健性。它有助于降低影响机器学习应用程序成功的风险。它可以通过持续监控和维护整个系统来实现。

比如说:在电子商务企业,数据和概念漂移会导致模型退化;如果我们没有部署系统来监控这些变化,公司就会蒙受损失,即失去客户。

业务和数据理解

开发流程一开始,我们需要确定项目范围、成功标准和ML应用程序的可行性。之后,我们开始数据收集和质量验证过程。这个过程漫长而又充满挑战。

范围:我们希望通过使用机器学习流程实现的目标。是留住客户,还是通过自动化降低运营成本?

成功标准:我们必须定义清晰和可衡量的业务、机器学习(统计指标)和经济(KPI)成功指标。

可行性:我们需要确保数据可用性、机器学习应用程序的适用性、法律约束、稳健性、可扩展性、可解释性和资源需求。

数据收集:通过收集数据,对其进行版本控制以实现可重复性,并确保源源不断的真实数据和生成数据。

数据质量验证:通过维护数据描述、要求和验证来确保质量。

为了确保质量和可重复性,我们需要记录数据的统计属性和数据生成过程。

数据准备

  第二阶段很简单。我们将为建模阶段准备数据。这包括数据选择、数据清洗、特征工程、数据增强和规范化。

1. 我们从特征选择、数据选择以及通过过采样或欠采样来处理不平衡类入手。

2. 然后,专注于减少噪音和处理缺失值。出于质量保证的目的,我们将添加数据单元测试,以减少错误值。

3. 视模型而定,我们执行特征工程和数据增强,比如独热编码和聚类。

4. 规范化和扩展数据。这可降低特征有偏差的风险。

为了确保可重复性,我们创建了数据建模、转换和特征工程管道。

模型工程

业务和数据理解阶段的约束和要求将决定建模阶段。我们需要了解业务问题以及我们将如何开发机器学习模型来解决这些问题。我们将专注于模型选择、优化和训练,将确保模型性能指标、稳健性、可扩展性、可解释性,并优化存储和计算资源。

1. 模型架构和类似业务问题方面的研究。

2. 定义模型性能指标。

3. 模型选择。

4. 通过整合专家来了解领域知识。

5. 模型训练。

6. 模型压缩和集成。

为确保质量和可重复性,我们将存储模型元数据并进行版本控制,比如模型架构、训练和验证数据、超参数以及环境描述。

最后,我们将跟踪ML试验,并创建ML管道,以创建可重复的训练流程。

模型评估

这是我们测试并确保模型已准备好部署的阶段。

  • 我们将在测试数据集上测试模型性能。
  • 通过提供随机或虚假数据,评估模型的稳健性。
  • 增强模型的可解释性,以满足监管部门要求。
  • 自动或请教领域专家,将结果与初始成功指标进行比较。

为了质量保证,评估阶段的每一步都被记录下来。

模型部署

模型部署是我们将机器学习模型集成到现有系统中的阶段。该模型可以部署在服务器、浏览器、软件和边缘设备上。来自模型的预测可用于BI仪表板、API、Web应用程序和插件。

模型部署流程:

  • 定义硬件推理。
  • 生产环境中的模型评估。
  • 确保用户接受和可用性。
  • 提供后备方案,最大程度地减少损失。
  • 部署策略。

监控和维护

生产环境中的模型需要持续监控和维护。我们将监控模型时效性、硬件性能和软件性能。

持续监控是流程的第一部分;如果性能降到阈值以下,自动做出决定,针对新数据重新训练模型。此外,维护部分不仅限于模型的重新训练。它需要决策机制,获取新数据、更新软硬件以及根据业务用例改进ML流程。

简而言之,就是持续集成、训练和部署ML模型。

结论

训练和验证模型是ML应用程序的一小部分。将最初的想法变成现实需要几个过程。我们在本文中介绍了CRISP-ML(Q) 以及它如何侧重风险评估和质量保证。

我们先定义业务目标、收集和清理数据、构建模型、拿测试数据集验证模型,然后将其部署到生产环境中。

该框架的关键组件是持续监控和维护。我们将监控数据和软硬件指标,以确定是重新训练模型还是升级系统。

如果您不熟悉机器学习操作,想了解更多信息,请阅读DataTalks.Club评述的​​免费MLOps课程​​。您将获得所有六个阶段的上手经验,了解CRISP-ML的实际实施。

原文标题:Making Sense of CRISP-ML(Q): The Machine Learning Lifecycle Process,作者:Abid Ali Awan

以上是解读CRISP-ML(Q):机器学习生命周期流程的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器