>本教程探討了用於數據驗證和機器學習模型測試的深檢查,並利用GitHub動作來進行自動測試和創建人工製品。 我們將介紹機器學習測試原理,DEEPNACKS功能和完整的自動化工作流程。
>由作者 圖像
>了解機器學習測試
有效的機器學習需要超出簡單準確度指標的嚴格測試。 我們必須評估公平性,魯棒性和道德考慮因素,包括偏見檢測,誤報/負面因素,績效指標,吞吐量以及與AI倫理的一致性。 這涉及數據驗證,交叉驗證,F1得分計算,混淆矩陣分析和漂移檢測(數據和預測)。 數據拆分(火車/測試/驗證)對於可靠的模型評估至關重要。 自動化此過程是構建可靠的AI系統的關鍵。對於初學者來說,帶有Python技能軌蹟的機器學習基礎為
提供了堅實的基礎。
Deepchecks,一個開源Python庫,簡化了全面的機器學習測試。它為模型性能,數據完整性和分配提供內置檢查,並支持可靠模型部署的連續驗證。>
開始使用deepchecks> >使用PIP安裝深部檢查:
pip install deepchecks --upgrade -q數據加載和準備(貸款數據集)
> 我們將使用DataCamp的貸款數據數據集。
import pandas as pd loan_data = pd.read_csv("loan_data.csv") loan_data.head()
創建一個deepchecks數據集:
from sklearn.model_selection import train_test_split from deepchecks.tabular import Dataset label_col = 'not.fully.paid' deep_loan_data = Dataset(loan_data, label=label_col, cat_features=["purpose"])數據完整性測試
> DeepChecks的數據完整性套件執行自動檢查。
這會生成一個報告覆蓋:特徵標籤相關,特徵 - 功能相關,單個值檢查,特殊字符檢測,零值分析,數據類型一致性,字符串不匹配,重複檢測,字符串長度驗證,衝突的標籤和異常檢測。
from deepchecks.tabular.suites import data_integrity integ_suite = data_integrity() suite_result = integ_suite.run(deep_loan_data) suite_result.show_in_iframe() # Use show_in_iframe for DataLab compatibility
保存報告:
單個測試執行
suite_result.save_as_html()
為了效率,請進行單個測試:
使用Deepchecks的模型評估
from deepchecks.tabular.checks import IsSingleValue, DataDuplicates result = IsSingleValue().run(deep_loan_data) print(result.value) # Unique value counts per column result = DataDuplicates().run(deep_loan_data) print(result.value) # Duplicate sample count
我們將訓練一個合奏模型(邏輯回歸,隨機森林,高斯幼稚的貝葉斯),並使用deepchecks對其進行評估。 模型評估報告包括:ROC曲線,弱段性能,未使用的功能檢測,火車測試性能比較,預測漂移分析,簡單模型比較,模型推理時間,混亂矩陣等
>
>本節詳細介紹了設置github操作工作流程以自動化數據驗證和模型測試。 該過程涉及創建一個存儲庫,添加數據和Python腳本( ),並配置GitHub Actions WorkFlow(
>使用Deepchecks和GitHub操作自動化機器學習測試可顯著提高效率和可靠性。 早期發現問題可以增強模型的準確性和公平性。 本教程提供了實施此工作流程的實用指南,使開發人員能夠構建更健壯和值得信賴的AI系統。 考慮使用Python職業生涯的機器學習科學家,以在該領域進一步發展。pip install deepchecks --upgrade -q
JSON輸出:
import pandas as pd
loan_data = pd.read_csv("loan_data.csv")
loan_data.head()
from sklearn.model_selection import train_test_split
from deepchecks.tabular import Dataset
label_col = 'not.fully.paid'
deep_loan_data = Dataset(loan_data, label=label_col, cat_features=["purpose"])
>使用github Action自動data_validation.py
)以執行這些腳本並將結果保存為工件。 原始輸入中提供了詳細的步驟和代碼段。 有關一個完整的示例,請參閱train_validation.py
>存儲庫。 工作流利用main.yml
>,kingabzpro/Automating-Machine-Learning-Testing
和actions/checkout
> action。
actions/setup-python
actions/upload-artifact
結論
以上是Deepnecks教程:自動化機器學習測試的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

禪工作室 13.0.1
強大的PHP整合開發環境

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能