Deepnecks教程：自動化機器學習測試-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Deepnecks教程：自動化機器學習測試

Lisa Kudrow

Mar 05, 2025 am 09:03 AM

>本教程探討了用於數據驗證和機器學習模型測試的深檢查，並利用GitHub動作來進行自動測試和創建人工製品。我們將介紹機器學習測試原理，DEEPNACKS功能和完整的自動化工作流程。

DeepChecks Tutorial: Automating Machine Learning Testing

>由作者圖像

了解機器學習測試

有效的機器學習需要超出簡單準確度指標的嚴格測試。我們必須評估公平性，魯棒性和道德考慮因素，包括偏見檢測，誤報/負面因素，績效指標，吞吐量以及與AI倫理的一致性。這涉及數據驗證，交叉驗證，F1得分計算，混淆矩陣分析和漂移檢測（數據和預測）。數據拆分（火車/測試/驗證）對於可靠的模型評估至關重要。自動化此過程是構建可靠的AI系統的關鍵。

對於初學者來說，帶有Python技能軌蹟的機器學習基礎為

提供了堅實的基礎。

Deepchecks，一個開源Python庫，簡化了全面的機器學習測試。它為模型性能，數據完整性和分配提供內置檢查，並支持可靠模型部署的連續驗證。

開始使用deepchecks

> >使用PIP安裝深部檢查：

pip install deepchecks --upgrade -q

數據加載和準備（貸款數據集）

> 我們將使用DataCamp的貸款數據數據集。

import pandas as pd
loan_data = pd.read_csv("loan_data.csv")
loan_data.head()

DeepChecks Tutorial: Automating Machine Learning Testing 創建一個deepchecks數據集：

from sklearn.model_selection import train_test_split
from deepchecks.tabular import Dataset

label_col = 'not.fully.paid'
deep_loan_data = Dataset(loan_data, label=label_col, cat_features=["purpose"])

數據完整性測試

> DeepChecks的數據完整性套件執行自動檢查。 >

這會生成一個報告覆蓋：特徵標籤相關，特徵 - 功能相關，單個值檢查，特殊字符檢測，零值分析，數據類型一致性，字符串不匹配，重複檢測，字符串長度驗證，衝突的標籤和異常檢測。

from deepchecks.tabular.suites import data_integrity
integ_suite = data_integrity()
suite_result = integ_suite.run(deep_loan_data)
suite_result.show_in_iframe() # Use show_in_iframe for DataLab compatibility

保存報告：

DeepChecks Tutorial: Automating Machine Learning Testing

單個測試執行

suite_result.save_as_html()

為了效率，請進行單個測試：

使用Deepchecks的模型評估

from deepchecks.tabular.checks import IsSingleValue, DataDuplicates
result = IsSingleValue().run(deep_loan_data)
print(result.value) # Unique value counts per column

result = DataDuplicates().run(deep_loan_data)
print(result.value) # Duplicate sample count

我們將訓練一個合奏模型（邏輯回歸，隨機森林，高斯幼稚的貝葉斯），並使用deepchecks對其進行評估。

pip install deepchecks --upgrade -q

模型評估報告包括：ROC曲線，弱段性能，未使用的功能檢測，火車測試性能比較，預測漂移分析，簡單模型比較，模型推理時間，混亂矩陣等

JSON輸出：

單個測試示例（標籤漂移）：
import pandas as pd loan_data = pd.read_csv("loan_data.csv") loan_data.head()

from sklearn.model_selection import train_test_split from deepchecks.tabular import Dataset label_col = 'not.fully.paid' deep_loan_data = Dataset(loan_data, label=label_col, cat_features=["purpose"])
>使用github Action自動
> >本節詳細介紹了設置github操作工作流程以自動化數據驗證和模型測試。該過程涉及創建一個存儲庫，添加數據和Python腳本（
，
），並配置GitHub Actions WorkFlow（data_validation.py）以執行這些腳本並將結果保存為工件。原始輸入中提供了詳細的步驟和代碼段。有關一個完整的示例，請參閱train_validation.py>存儲庫。工作流利用main.yml>，kingabzpro/Automating-Machine-Learning-Testing和actions/checkout> action。 actions/setup-pythonactions/upload-artifact

結論

>使用Deepchecks和GitHub操作自動化機器學習測試可顯著提高效率和可靠性。早期發現問題可以增強模型的準確性和公平性。本教程提供了實施此工作流程的實用指南，使開發人員能夠構建更健壯和值得信賴的AI系統。考慮使用Python職業生涯的機器學習科學家，以在該領域進一步發展。

以上是Deepnecks教程：自動化機器學習測試的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles