譯者 | 崔皓
審校 | 孫淑娟
今天社會,人工智慧的發展成為全球企業和政府關注的重點。然而,與人工智慧息息相關的另一個問題卻被忽略:數據品質差。
人工智慧演算法依賴可靠的數據來產生最佳結果——如果數據有偏差、不完整、不充分、甚至是不準確,會導致毀滅性的後果。
識別病患疾病的人工智慧系統是一個很好的例子,由於資料品質不高而導致不良後果。當數據不足時,這些系統會產生錯誤的診斷和不準確的預測,從而導致誤診和延誤治療。例如,劍橋大學對用於診斷 Covid-19 的 400 多種工具進行的一項研究發現,由於使用了缺陷資料集導致 AI 產生的報告完全無法使用。
換句話說,如果數據不夠好,AI 計劃將對現實世界產生毀滅性的後果。
關於什麼是「夠好」的數據,人們一直存在著巨大的爭論。有人說不存在足夠好的數據。另外一些人表示「太好」的數據會導致分析癱瘓(譯者:應該是指過擬合)——而 HBR 則直截了當地指出,如果糟糕的資訊會導致機器學習工具無法運作。
在WinPure,將足夠好的資料定義為「完整、準確、有效,可以放心地用於具有風險的業務流程中,資料等級取決於個人目標和業務環境。」
大多數公司在數據品質和治理方面飽受折磨,儘管他們都不會承認。這種折磨不斷增加專案的緊張感,讓他們不堪重負,可以想像他們正在承受部署人工智慧計畫以保持競爭優勢的巨大壓力。可悲的是,像髒數據這類問題都不可能成為董事會討論的議題,直到它導致專案失敗時才有人會關注。
當演算法以訓練資料為基礎來學習時,資料品質問題出現在流程的開始階段。例如,如果向 AI 演算法提供未經過濾的社群媒體數據,它會抽取濫用、種族主義評論和厭女的言論,如 Microsoft 的 AI 機器人所表現的那樣。最近,人工智慧無法檢測深色皮膚的人也被認為是訓練資料問題導致的。
這與資料品質有何關係?
缺乏資料治理、資料品質意識淡薄和孤立的資料視圖才是資料品質不佳的罪魁禍首。
當企業意識到資料品質出現問題時,他們會對招募感到恐慌。透過盲目聘請顧問、工程師和分析師來診斷、清理數據,希望盡快解決問題。不幸的是,幾個月過去了,儘管花費了數百萬美元,但問題似乎並沒有消失。對數據品質問題採取下意識的方法幾乎沒有幫助。
真正的改變從基底層開始。
如果您希望您的 AI/ML 專案朝著正確的方向發展,請採取以下三個關鍵步驟。
首先,透過建立資料素養文化來評估資料品質。 Bill Schmarzo 是這方面的強大代言人,他建議使用設計思維來創造一種文化,讓每個人都能理解並為組織的數據目標和挑戰做出貢獻。
在當今的業務環境中,資料和資料品質不再是 IT 或資料團隊的唯一責任。業務用戶必須意識到髒數據問題以及不一致和重複的數據等問題。
因此,首先要讓資料品質培訓成為受到重視的組織工作,並使團隊能夠識別不良資料屬性。
透過下面的清單,您可以使用它來追蹤資料品質。
關於資料品質問題,企業經常犯錯。例如聘請資料分析師來完成日常的資料清理任務,而不是專注於規劃和策略工作。有些企業在沒有計劃的情況下使用資料管理工具來清理、重複資料刪除、合併和清除資料。不幸的是,工具和人才不能孤立地解決問題。滿足資料品質維度的策略才是解決問題的根本。
此策略必須解決資料收集、標記、處理以及數與AI/ML 項目相符的問題。例如,如果人工智慧招募計畫只選擇男性候選人擔任技術職位,那麼該計畫的培訓數據顯然是有偏見的、不完整的(沒有收集足夠的女性候選人數據)和不準確的。因此,這些數據不符合人工智慧專案的真正目的。
對資料品質的要求已經超越了清理和修復資料的日常任務。所以,需要在開始專案之前設定資料完整性和治理標準。它使專案免於陷入失敗的境地!
對於「足夠好的資料或資料品質水準」沒有通用標準。相反,這一切都取決於企業的資訊管理系統、資料治理指南,以及團隊和業務目標的知識,甚至許多其他因素。
不過在啟動專案之前,有幾個問題要問團隊:
提出正確的問題、分配正確的角色、實施資料品質標準並幫助團隊在問題出現之前應對挑戰!
資料品質不只是修復錯字或錯誤那麼簡單。它確保人工智慧系統沒有歧視性、誤導性或不準確性。在啟動 AI 專案之前,有必要解決數據中的缺陷以應對數據品質的挑戰。此外,啟動組織範圍內的資料素養計劃,將每個團隊與整體目標連結起來。
崔皓,51CTO社群編輯,資深架構師,擁有18年的軟體開發與架構經驗,10年分散式架構經驗。
原文標題:Is Your Data Good Enough for Your Machine Learning/AI Plans?,作者:Farah Kim
以上是如何提升數據品質更能滿足AI專案需求的詳細內容。更多資訊請關注PHP中文網其他相關文章!