Deepnecks教程：自动化机器学习测试-人工智能-PHP中文网

首页

科技周边

人工智能

Deepnecks教程：自动化机器学习测试

Lisa Kudrow

Mar 05, 2025 am 09:03 AM

>本教程探讨了用于数据验证和机器学习模型测试的深检查，并利用GitHub动作来进行自动测试和创建人工制品。我们将介绍机器学习测试原理，DEEPNACKS功能和完整的自动化工作流程。

DeepChecks Tutorial: Automating Machine Learning Testing

>由作者图像

了解机器学习测试

有效的机器学习需要超出简单准确度指标的严格测试。我们必须评估公平性，鲁棒性和道德考虑因素，包括偏见检测，误报/负面因素，绩效指标，吞吐量以及与AI伦理的一致性。这涉及数据验证，交叉验证，F1得分计算，混淆矩阵分析和漂移检测（数据和预测）。数据拆分（火车/测试/验证）对于可靠的模型评估至关重要。自动化此过程是构建可靠的AI系统的关键。

对于初学者来说，带有Python技能轨迹的机器学习基础为

提供了坚实的基础。

Deepchecks，一个开源Python库，简化了全面的机器学习测试。它为模型性能，数据完整性和分配提供内置检查，并支持可靠模型部署的连续验证。

开始使用deepchecks

> >使用PIP安装深部检查：

pip install deepchecks --upgrade -q

数据加载和准备（贷款数据集）

> 我们将使用DataCamp的贷款数据数据集。

import pandas as pd
loan_data = pd.read_csv("loan_data.csv")
loan_data.head()

DeepChecks Tutorial: Automating Machine Learning Testing 创建一个deepchecks数据集：

from sklearn.model_selection import train_test_split
from deepchecks.tabular import Dataset

label_col = 'not.fully.paid'
deep_loan_data = Dataset(loan_data, label=label_col, cat_features=["purpose"])

数据完整性测试

> DeepChecks的数据完整性套件执行自动检查。>

这会生成一个报告覆盖：特征标签相关，特征 - 功能相关，单个值检查，特殊字符检测，零值分析，数据类型一致性，字符串不匹配，重复检测，字符串长度验证，冲突的标签和异常检测。

from deepchecks.tabular.suites import data_integrity
integ_suite = data_integrity()
suite_result = integ_suite.run(deep_loan_data)
suite_result.show_in_iframe() # Use show_in_iframe for DataLab compatibility

保存报告：

DeepChecks Tutorial: Automating Machine Learning Testing

单个测试执行

suite_result.save_as_html()

为了效率，请进行单个测试：

使用Deepchecks的模型评估

from deepchecks.tabular.checks import IsSingleValue, DataDuplicates
result = IsSingleValue().run(deep_loan_data)
print(result.value) # Unique value counts per column

result = DataDuplicates().run(deep_loan_data)
print(result.value) # Duplicate sample count

我们将训练一个合奏模型（逻辑回归，随机森林，高斯幼稚的贝叶斯），并使用deepchecks对其进行评估。

pip install deepchecks --upgrade -q

模型评估报告包括：ROC曲线，弱段性能，未使用的功能检测，火车测试性能比较，预测漂移分析，简单模型比较，模型推理时间，混乱矩阵等

JSON输出：

单个测试示例（标签漂移）：
import pandas as pd loan_data = pd.read_csv("loan_data.csv") loan_data.head()

from sklearn.model_selection import train_test_split from deepchecks.tabular import Dataset label_col = 'not.fully.paid' deep_loan_data = Dataset(loan_data, label=label_col, cat_features=["purpose"])
>使用github Action自动
> >本节详细介绍了设置github操作工作流程以自动化数据验证和模型测试。该过程涉及创建一个存储库，添加数据和Python脚本（
，
），并配置GitHub Actions WorkFlow（data_validation.py）以执行这些脚本并将结果保存为工件。原始输入中提供了详细的步骤和代码段。有关一个完整的示例，请参阅train_validation.py>存储库。工作流利用main.yml>，kingabzpro/Automating-Machine-Learning-Testing和actions/checkout> action。 actions/setup-pythonactions/upload-artifact

结论

>使用Deepchecks和GitHub操作自动化机器学习测试可显着提高效率和可靠性。早期发现问题可以增强模型的准确性和公平性。本教程提供了实施此工作流程的实用指南，使开发人员能够构建更健壮和值得信赖的AI系统。考虑使用Python职业生涯的机器学习科学家，以在该领域进一步发展。

以上是Deepnecks教程：自动化机器学习测试的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您必须在无知的面纱后面建立工作场所Apr 29, 2025 am 11:15 AM

在约翰·罗尔斯1971年具有开创性的著作《正义论》中，他提出了一种思想实验，我们应该将其作为当今人工智能设计和使用决策的核心：无知的面纱。这一理念为理解公平提供了一个简单的工具，也为领导者如何利用这种理解来公平地设计和实施人工智能提供了一个蓝图。设想一下，您正在为一个新的社会制定规则。但有一个前提：您事先不知道自己在这个社会中将扮演什么角色。您最终可能富有或贫穷，健康或残疾，属于多数派或边缘少数群体。在这种“无知的面纱”下运作，可以防止规则制定者做出有利于自身的决策。相反，人们会更有动力制定公

决策，决策……实用应用AI的下一步Apr 29, 2025 am 11:14 AM

许多公司专门从事机器人流程自动化（RPA），提供机器人以使重复性任务自动化 - UIPATH，在任何地方自动化，蓝色棱镜等。同时，过程采矿，编排和智能文档处理专业

AI的未来超越了简单的单词预测和对话模拟。 AI代理人正在出现，能够独立行动和任务完成。这种转变已经在诸如Anthropic的Claude之类的工具中很明显。 AI代理：研究

为什么同情在AI驱动的未来中对领导者更重要Apr 29, 2025 am 11:12 AM

快速的技术进步需要对工作未来的前瞻性观点。当AI超越生产力并开始塑造我们的社会结构时，会发生什么？ Topher McDougal即将出版的书Gaia Wakes：

用于产品分类的AI：机器可以总税法吗？Apr 29, 2025 am 11:11 AM

产品分类通常涉及复杂的代码，例如诸如统一系统（HS）等系统的“ HS 8471.30”，对于国际贸易和国内销售至关重要。这些代码确保正确的税收申请，影响每个INV

数据中心的需求会引发气候技术反弹吗？Apr 29, 2025 am 11:10 AM

数据中心能源消耗与气候科技投资的未来本文探讨了人工智能驱动的数据中心能源消耗激增及其对气候变化的影响，并分析了应对这一挑战的创新解决方案和政策建议。能源需求的挑战：大型超大规模数据中心耗电量巨大，堪比数十万个普通北美家庭的总和，而新兴的AI超大规模中心耗电量更是数十倍于此。2024年前八个月，微软、Meta、谷歌和亚马逊在AI数据中心建设和运营方面的投资已达约1250亿美元（摩根大通，2024）（表1）。不断增长的能源需求既是挑战也是机遇。据Canary Media报道，迫在眉睫的电

AI和好莱坞的下一个黄金时代Apr 29, 2025 am 11:09 AM

生成式AI正在彻底改变影视制作。Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等众多新模型，正在以前所未有的速度提升生成视频的质量。这些模型能够轻松制作出复杂的特效和逼真的场景，甚至连短视频剪辑和具有摄像机感知的运动效果也已实现。虽然这些工具的操控性和一致性仍有待提高，但其进步速度令人惊叹。生成式视频正在成为一种独立的媒介形式。一些模型擅长动画制作，另一些则擅长真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否会慢慢成为AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显着退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles