隨著我們深入ML和GenAI領域,對資料品質的重視變得至關重要。 KMS Technology高級技術創新小組的技術長John Jeske深入研究了資料治理方法,如資料沿襲追蹤和聯合學習,以確保頂級模型的性能。
資料品質是模型永續性和利害關係人信任的關鍵。在建模過程中,資料品質使長期維護變得更容易,並使你能夠在利害關係人社群中建立使用者信心和信心。在包括大規模語言和生成性演算法在內的複雜模型中,『垃圾輸入,垃圾輸出』的影響會加劇。 「Jeske說。
無論你為用例選擇哪種模型,糟糕的數據品質都不可避免地會導致GenAI模型的扭曲。陷阱通常來自培訓數據,這些數據錯誤地表示了公司的範圍、客戶基礎或應用程式範圍。
真正的財富在於數據本身,而不是短暫的模型或建模結構。在過去幾個月裡,隨著大量建模框架的湧現,數據作為可貨幣化資產的價值變得更加突顯
KMS Technology軟體服務高級副總裁Jeff Scott進一步解釋道:「當AI生成的內容與預期輸出有偏差時,並非演算法錯誤,而是培訓資料不足或扭曲的反映
#資料治理的最佳實踐包括元資料管理、資料管理和自動化品質檢查等活動。例如,確保資料來源的可靠性,在獲取用於培訓和建模的資料時使用經過認證的資料集,並考慮使用自動化資料品質工具。儘管這可能增加複雜性,但這些工具對於確保資料完整性非常有幫助
為了提高資料質量,我們使用了提供資料有效性、完整性檢查和時間一致性等屬性的工具,這促進了可靠、一致的數據,而這對健壯的AI模型來說是不可或缺的。
在每個人看來,數據都是一個問題。在公司內,分配資料治理的責任是一項重要任務
最重要的是確保功能按設計工作,並且從潛在客戶的角度來看,正在訓練的資料是合理的。回饋加強了學習,然後在下一次訓練模型時考慮到回饋,從而調用持續改進,直到信任點。
在我們的工作流程中,AI和ML模型在公開推出之前都要經過嚴格的內部測試。資料工程團隊不斷收到回饋,允許對模型進行迭代改進,以最大限度地減少偏差和其他異常情況
資料治理需要在相關的業務領域進行資料管理,並且需要有主題專家持續參與,以確保團隊和系統中的資料得到適當的整理和一致的負責任
必須了解與接收來自技術的不準確結果相關的風險,公司必須評估其透明度,從資料來源和處理智慧財產權到整體資料品質和完整性。
透明度對客戶的信任是不可或缺的,資料治理不僅僅是一項技術工作,由於風險從不準確的AI預測轉移到最終用戶,它還會影響公司的聲譽。
隨著GenAI的不斷發展,資料治理的掌握變得愈發重要。這不僅是為了保證資料質量,也是為了理解資料與AI模型之間的複雜關係。這種洞察力對於技術進步、業務健康以及維護利益相關者和更廣泛公眾的信任至關重要
以上是GenAI時代的資料治理藍圖的詳細內容。更多資訊請關注PHP中文網其他相關文章!