首頁  >  文章  >  科技週邊  >  AI疲勞問題能透過數據治理解決嗎?

AI疲勞問題能透過數據治理解決嗎?

王林
王林轉載
2024-01-18 17:51:22779瀏覽

AI疲勞問題能透過數據治理解決嗎?

資料治理和AI疲勞聽起來像是兩個不同的概念,但兩者之間有著內在的連結。為了更好地理解它,讓我們從它們的定義開始。

資料治理

長期以來,它一直是資料產業的核心焦點。

資料治理是確保資料安全、私有、準確、可用和可靠的一切措施,包括制定內部標準和資料政策,規範資料的收集、儲存、處理和處置。這個過程對於保護用戶隱私和維護資料的完整性至關重要。

正如這一定義所強調的那樣,資料治理是關於管理資料——準確地說,是驅動AI模型的引擎。

雖然資料治理和AI之間的聯繫初步顯現,但是將其與AI疲勞聯繫起來是因為強調導致疲憊的原因,這確保了整篇文章中對該術語的一致使用。

AI疲勞

由於公司、開發人員或團隊遇到的挫折和挑戰,AI疲勞可能會出現,導致AI系統的實施或價值實現受阻。

AI過度炒作的主要原因在於對其能力的不切實際期望。利害關係人需要與AI的能力、可能性、限制和風險保持一致,才能合理地評估其價值和應用。

談到風險,道德通常被認為是事後的想法,導致放棄不符合規定的AI倡議。

你一​​定想知道資料治理在導致AI疲勞方面的作用-這是本文的前提。

這就是我們接下來要去的地方。

AI疲勞大致可分為部署前和部署後。讓我們先關注部署前的工作。

部署前

將概念驗證(PoC)升級到部署的因素有很多,例如:

  • 我們正在努力解決什麼問題?
  • 為什麼現在就確定優先順序會成為一個緊迫的問題?
  • 有哪些數據可用?
  • #它首先是ML——可解的嗎?
  • 數據有規律嗎?
  • 這種現象可以重演嗎?
  • 哪些額外數據會提升模型的性能?
##一旦我們評估了使用ML演算法可以最好地解決問題,數據科學團隊就會執行探索性的數據分析。在這個階段揭示了許多底層資料模式,突出了給定資料是否包含豐富的訊號,它還有助於創建工程特徵,以加快演算法的學習過程。

接下來,團隊建立第一個基準模型,通常會發現它的性能沒有達到可接受的水平。一款輸出像擲硬幣一樣好的車型不會增加任何價值,這是建立ML模型時的首批挫折之一,也就是經驗教訓。

公司可能會從一個業務問題轉移到另一個業務問題,從而導致疲勞。儘管如此,如果底層資料沒有攜帶豐富的訊號,任何AI演算法都無法建立在它的基礎上,該模型必須從訓練資料中學習統計關聯,以對看不見的資料進行概括。

部署後

儘管經過訓練的模型在驗證集上顯示了有希望的結果,但根據合格的業務標準,例如70%的精度,如果模型在生產環境中不能充分發揮作用,仍可能會出現疲勞。

這種類型的AI疲勞被稱為部署後階段。

無數原因可能會導致效能下降,而糟糕的資料品質是困擾該模型的最常見問題,它限制了模型在缺少關鍵屬性的情況下準確預測目標反應的能力。

考慮在訓練資料中只有10%缺失的基本特徵之一,現在生產資料中50%的時間變為空,從而導致錯誤預測,這樣的迭代和確保模型一致執行的努力會讓資料科學家和業務團隊感到疲憊,從而削弱人們對數據管道的信心,並使專案投資面臨風險。

資料治理是關鍵

穩健的資料治理措施對於解決這兩種類型的AI疲勞至關重要。鑑於數據是ML模型的核心,訊號豐富、無錯誤和高品質的數據是ML項目成功的必要條件。解決AI疲勞問題需要高度關注資料治理。因此,我們必須嚴格工作,確保正確的數據質量,為建立最先進的模型和提供值得信賴的業務見解奠定基礎。

資料品質

資料品質是蓬勃發展的資料治理的關鍵,也是機器學習演算法成功的關鍵因素。公司必須在數據品質方面進行投資,例如向數據消費者發布報告。在資料科學專案中,想想當品質不佳的資料進入模型時會發生什麼,這可能會導致效能不佳。

只有在錯誤分析期間,團隊才能識別資料品質問題,當這些問題被送到上游修復時,最終會導致團隊之間的疲勞。

顯然,這不僅僅是花費的努力,而且在正確的資料開始輸入之前,還會損失大量的時間。

Поэтому всегда рекомендуется исправлять проблемы с данными в источнике, чтобы предотвратить такие трудоемкие итерации. В конечном счете, опубликованные отчеты о качестве данных подразумевают, что группа по обработке данных (или любые другие последующие пользователи и потребители данных) понимают приемлемое качество входящих данных.

Без мер по обеспечению качества данных и управлению специалисты по данным будут перегружены проблемами с данными, что приведет к созданию неудачных моделей и усталости ИИ.

Заключение

В этой статье освещаются две стадии наступления усталости ИИ и описывается, как меры управления данными, такие как отчеты о качестве данных, могут способствовать построению надежных и надежных моделей.

Создавая прочную основу посредством управления данными, компании могут построить дорожную карту для успешной и беспрепятственной разработки и внедрения ИИ, вселяя энтузиазм.

Чтобы в этой статье был представлен всесторонний обзор различных подходов к борьбе с усталостью от искусственного интеллекта, я также подчеркиваю роль организационной культуры, которая в сочетании с другими передовыми практиками, такими как управление данными, позволит командам по анализу данных быстрее и быстрее создавать значимый вклад ИИ.

以上是AI疲勞問題能透過數據治理解決嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除