譯者 | 崔皓
審校 | 孫淑娟
機器學習並不是一項深奧的技術。正如在複雜的深度神經網路中多參數和超參數的方法只是認知計算的一種表現形式,看起來也沒有那麼深奧。
還有其他一些機器學習的種類(有些涉及深度神經網路),這類機器學習的模型結果、模型的確定以及影響模型的複雜性都表現得非常透明。
所有這些都取決於組織對其資料來源的理解程度。
換句話說,需要了解從模型訓練資料到生產資料模型過程中的一切。這也是解釋、改進和改進其結果不可或缺的部分。透過這種方式讓組織大幅提升模型的商業價值。
更重要的是,也進一步提高了這項技術的公平性、問責性和透明度,對於整個社會而言也更加可靠、更加完善。
Databricks行銷副總裁Joel Minnick承認:「這就是為什麼您需要對資料的上游和下游進行細粒度的了解,以便能夠負責任地進行機器學習。」
針對模型的資料訓練與資料產生會涉及資料來源、資料轉換、資料整合等多項技術。在成熟的資料目錄方案中,可以實現資料的即時捕獲,因此可以隨時監控進度從而了解模型的執行進度。 「它能讓我清楚了解在模型中使用數據的上下文情況。同時,你還可以知道,這些數據是從哪裡來的?我們從中獲得了哪些其他數據?它是什麼時候產生的?這樣我就可以更好地理解我應該如何使用這些數據”,數據科學家Minnick 如是說。
「資料沿襲」(記錄資料來源、移動、處理過程)由元資料組成,而資料目錄則用來儲存有關資料集。目錄還使用戶能夠將標籤和其他描述符作為附加元數據,其可以幫助追溯數據來源和建立數據信任。正如 Minnick 所描述的“資料沿襲”可以產生“API 驅動的服務”,透過這些服務連接一系列平台(包括資料科學家平台、資料工程師平台和終端用戶平台)。
資料訓練和資料操作的可追溯性提升會影響到機器學習模型結果,而模型結果又和資料科學領域中的資料治理息息相關。因此,資料治理和創建、部署模型的資料科學平台存在著千絲萬縷的聯繫。 「技能管理表格和文件,又能管理筆記本,同時還可以管理儀錶板。這是管理生產和消費數據的現代方式。」Minnick 評論道。 對於在筆記本中建立模型的資料科學家和透過儀表板監控輸出結果的資料科學家來說,對上述說法深以為然。
儘管如此,簡單地透過 API 連接資料科學工具平台,從而獲取「資料沿襲」只是透明利用機器學習的一個面向。為了達到改進模型的輸出目的,還需要透過資料沿襲中確定的內容來對輸出模型進行校準。例如,如何讓可追溯性模型數據使數據科學家「能夠理解一旦一些數據出現問題,就可以分離出這部分數據,」Minnick 指出。
從邏輯上講,可以利用這些知識來了解為什麼特定資料類型存在問題,從而修正它們或透過完全刪除它們來提高模型的準確性。根據Minnick 的說法,越來越多的組織正意識到將「資料沿襲」應用到模型結果的好處,「部分原因是機器學習和人工智慧在當今各個行業的興起。它變得越來越普遍。去年,當我們發布AutoML 產品時,就是使用了「玻璃盒」來代表對資料來源的透明。」
一些組織也利用「資料沿襲」提供的自適應認知運算模型的能力,來增強其法規遵循能力。金融、醫療保健等行業受到高度監管,要求公司清楚說明他們是如何為客戶做出決策的。數據追溯為建立機器學習模型和理解模型結果創建了一張路線圖——這對監管機構的合規性非常寶貴。
這些資訊也有助於內部審計,使公司能夠了解他們在哪些監管領域失職,以便可以糾正問題以防止違規。 「能夠向監管機構展示非常精細的數據沿襲訊息,不僅是跨表格,而且可以在廣泛的組織的任何地方使用這些數據,這非常重要,」Minnick 斷言。當這項優勢與資料來源提高模型準確性的想法不謀而合,這種方法很可能將成為部署該技術的最佳實踐。
崔皓,51CTO社群編輯,資深架構師,擁有18年的軟體開發與架構經驗,10年分散式架構經驗。曾任惠普技術專家。樂於分享,寫了許多熱門科技文章,閱讀量超過60萬。 《分散式架構原理與實務》作者。
原文標題:#A “Glass Box” Approach to Responsible Machine Learning#,作者:Jelani Harper
以上是負責任的機器學習--「玻璃盒」方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!