譯者 | 崔皓
審校 | 孫淑娟
#開篇
機器學習並不是一項深奧的技術。正如在複雜的深度神經網路中多參數和超參數的方法只是認知計算的一種表現形式,看起來也沒有那麼深奧。
還有其他一些機器學習的種類(有些涉及深度神經網路),這類機器學習的模型結果、模型的確定以及影響模型的複雜性都表現得非常透明。
所有這些都取決於組織對其資料來源的理解程度。
換句話說,需要了解從模型訓練資料到生產資料模型過程中的一切。這也是解釋、改進和改進其結果不可或缺的部分。透過這種方式讓組織大幅提升模型的商業價值。
更重要的是,也進一步提高了這項技術的公平性、問責性和透明度,對於整個社會而言也更加可靠、更加完善。
Databricks行銷副總裁Joel Minnick承認:「這就是為什麼您需要對資料的上游和下游進行細粒度的了解,以便能夠負責任地進行機器學習。」
為數據沿襲編制目錄
針對模型的資料訓練與資料產生會涉及資料來源、資料轉換、資料整合等多項技術。在成熟的資料目錄方案中,可以實現資料的即時捕獲,因此可以隨時監控進度從而了解模型的執行進度。 「它能讓我清楚了解在模型中使用數據的上下文情況。同時,你還可以知道,這些數據是從哪裡來的?我們從中獲得了哪些其他數據?它是什麼時候產生的?這樣我就可以更好地理解我應該如何使用這些數據”,數據科學家Minnick 如是說。
「資料沿襲」(記錄資料來源、移動、處理過程)由元資料組成,而資料目錄則用來儲存有關資料集。目錄還使用戶能夠將標籤和其他描述符作為附加元數據,其可以幫助追溯數據來源和建立數據信任。正如 Minnick 所描述的“資料沿襲”可以產生“API 驅動的服務”,透過這些服務連接一系列平台(包括資料科學家平台、資料工程師平台和終端用戶平台)。
資料治理:為資料科學而生
資料訓練和資料操作的可追溯性提升會影響到機器學習模型結果,而模型結果又和資料科學領域中的資料治理息息相關。因此,資料治理和創建、部署模型的資料科學平台存在著千絲萬縷的聯繫。 「技能管理表格和文件,又能管理筆記本,同時還可以管理儀錶板。這是管理生產和消費數據的現代方式。」Minnick 評論道。 對於在筆記本中建立模型的資料科學家和透過儀表板監控輸出結果的資料科學家來說,對上述說法深以為然。
清晰且透明
儘管如此,簡單地透過 API 連接資料科學工具平台,從而獲取「資料沿襲」只是透明利用機器學習的一個面向。為了達到改進模型的輸出目的,還需要透過資料沿襲中確定的內容來對輸出模型進行校準。例如,如何讓可追溯性模型數據使數據科學家「能夠理解一旦一些數據出現問題,就可以分離出這部分數據,」Minnick 指出。
從邏輯上講,可以利用這些知識來了解為什麼特定資料類型存在問題,從而修正它們或透過完全刪除它們來提高模型的準確性。根據Minnick 的說法,越來越多的組織正意識到將「資料沿襲」應用到模型結果的好處,「部分原因是機器學習和人工智慧在當今各個行業的興起。它變得越來越普遍。去年,當我們發布AutoML 產品時,就是使用了「玻璃盒」來代表對資料來源的透明。」
法規後果以及其他
一些組織也利用「資料沿襲」提供的自適應認知運算模型的能力,來增強其法規遵循能力。金融、醫療保健等行業受到高度監管,要求公司清楚說明他們是如何為客戶做出決策的。數據追溯為建立機器學習模型和理解模型結果創建了一張路線圖——這對監管機構的合規性非常寶貴。
這些資訊也有助於內部審計,使公司能夠了解他們在哪些監管領域失職,以便可以糾正問題以防止違規。 「能夠向監管機構展示非常精細的數據沿襲訊息,不僅是跨表格,而且可以在廣泛的組織的任何地方使用這些數據,這非常重要,」Minnick 斷言。當這項優勢與資料來源提高模型準確性的想法不謀而合,這種方法很可能將成為部署該技術的最佳實踐。
譯者介紹
崔皓,51CTO社群編輯,資深架構師,擁有18年的軟體開發與架構經驗,10年分散式架構經驗。曾任惠普技術專家。樂於分享,寫了許多熱門科技文章,閱讀量超過60萬。 《分散式架構原理與實務》作者。
原文標題:#A “Glass Box” Approach to Responsible Machine Learning#,作者:Jelani Harper
以上是負責任的機器學習--「玻璃盒」方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver Mac版
視覺化網頁開發工具