首頁  >  文章  >  科技週邊  >  資料管理對生成式人工智慧的影響

資料管理對生成式人工智慧的影響

WBOY
WBOY轉載
2023-06-07 11:15:36888瀏覽

       2023年將是我們記住的人工智慧時代的主流開端,由每個人都在談論的技術:ChatGPT推動。

像ChatGPT這樣的生成式人工智慧語言模型已經抓住了我們的想像力,因為我們第一次能夠看到人工智慧像真人一樣與我們對話,並生成散文、詩歌和其他我們認為有創意的新內容。透過生成式人工智慧解決方案,可能有突破性的潛力,可以提高創新速度、生產力和實現價值的效率。儘管有限制,但人們對它們的資料隱私和管理最佳實踐的認識還有很大提高空間。

最近,許多科技和安全領域的人士因缺乏對人工智慧技術使用的理解和足夠的監管護欄而發出警告。人們已經表達出對人工智慧工具輸出可靠性、智慧財產權、敏感資料外洩以及侵犯隱私和安全問題的擔憂。

三星公司與ChatGPT的事件成為了頭條新聞,因為這家科技巨頭無意中向ChatGPT洩露了自己的秘密。三星並不是唯一這樣做的公司:Cyber​​haven的一項研究發現,4%的員工曾經將敏感的公司資料輸入大型語言模型。很多人不清楚,當他們使用企業資料來訓練模型時,人工智慧公司可能會在其他場合再次利用這些資料。

似乎我們不需要更多的網路犯罪素材,網路安全情報公司RecordedFuture透露:「在ChatGPT發布的幾天內,我們在暗網和特殊訪問論壇上發現了許多威脅行為者,他們分享有缺陷但功能齊全的惡意軟體、社會工程教程、賺錢計劃等等——所有這些都是透過使用ChatGPT實現的。」

私人網路存取工程總監JoseBlaya說,在隱私方面,當一個人使用ChatGPT這樣的工具註冊時,它可以存取IP位址、瀏覽器設定和瀏覽活動——就像今天的搜尋引擎一樣。但風險更高,因為未經個人同意,它可能會洩露政治信念或性取向,並可能意味著尷尬甚至毀掉職業生涯的資訊被發布。

顯然,我們需要更好的法規和標準來實作這些新的人工智慧技術。但是對於資料治理和資料管理的重要作用卻缺乏討論,因為這在企業採用和安全使用人工智慧方面可以發揮關鍵作用。

一切都與資料有關

以下是應該關注的三個面向:

##關於專有預訓練AI模型或大型語言模型(LLM), 資料治理和透明度的核心問題在於訓練資料。使用llm的機器學習程式包含來自許多來源的大量資料集。問題是,LLM是一個黑盒子,幾乎不提供來源資料的透明度。我們不確定資訊來源的可信度,且不帶任何偏見,但要避免包含非法的個人識別資訊或欺詐性資料。例如,開放人工智慧就不會共享其來源資料。 《華盛頓郵報》分析了Google的C4資料集,涵蓋了1500萬個網站,發現了數十個令人討厭的網站,其中包括煽動性和個人身份資訊資料以及其他可疑內容。資料治理要求透明的資料來源,並確保從這些資料來源中獲得的知識的有效性和可信度。例如,你的人工智慧機器人可能會根據未經證實的來源或假新聞網站的資料進行訓練,使其知識產生偏差,而這些知識現在是你公司新政策或研發計畫的一部分。

目前,不同的人工智慧供應商針對處理用戶資料隱私的策略存在差異,其中包括資料隔離和資料域等方面。您的員工可能會不自覺地向LLM提供數據,然而他們可能不清楚這些數據會被合併到模型的知識庫中。有可能,公司會無意將商業機密、軟體程式碼以及個人資料外洩給大眾。一些人工智慧解決方案提供了變通方法,例如透過將資料排除在預訓練模型之外來保護資料隱私的api,但這限制了它們的價值,因為理想的用例是用特定情況的資料增強預訓練模型,同時保持資料的私密性。讓預先訓練的人工智慧工具理解資料「領域」的概念是解決問題的一種方案。訓練資料的「通用」領域用於預訓練,並在實體之間共享,而基於「專有資料」的訓練模型擴展則安全地限制在組織的邊界內。資料管理可以確保建立和保留這些邊界。

#

人工智慧引發的衍生作品涵蓋了資料管理的第三個領域,與人工智慧流程以及最終資料擁有者有關。假設我使用AI機器人來解決程式設計問題。通常情況下,我會知道是誰負責進行調查和修復工作,因為如果某些事情沒有正確的處理,就會出現bug或錯誤。但有了人工智慧,我的組織要為我要求人工智慧執行的任務所導致的任何錯誤或不良後果負責——即使我們對流程或來源資料不透明。你不能怪機器:在某個地方,是人類造成了錯誤或糟糕的結果。那麼IP呢?你是否擁有使用生成式AI工具創作的作品的IP?你在法庭上怎麼辯護?根據《哈佛商業評論》報道,藝術界已經開始提起訴訟。

現在要考慮的資料管理策略

在這些早期階段,我們不知道我們對人工智慧的不了解,包括壞資料、隱私和安全、知識產權和其他敏感資料集的風險。人工智慧也是一個廣泛的領域,有多種方法,如法學碩士,基於邏輯的自動化,這些只是透過結合資料治理政策和資料管理實踐來探索的一些主題:

  • 暫停對生成式人工智慧的實驗,直到你有一個監督策略、政策、

以及降低風險和驗證結果的程式。

  • 合併資料管理指南:首先要對自己的資料有一個堅實的理解,無論它位於哪裡。你的敏感個人資訊和客戶數據在哪裡?你有多少IP數據,這些文件在哪裡?你能否監控使用情況,以確保這些數據類型不會被無意中輸入人工智能工具,並防止安全或隱私洩露?

避免向人工智慧應用程式提供不必要的數據,也不要分享任何敏感的專有數據。鎖定/加密IP和客戶數據,防止其被共享。

  • 了解人工智慧工具如何以及是否可以與資料來源透明。

供應商能保護你的資料嗎?Google在其部落格中分享了這一聲明,但「如何」並不清楚:「無論一家公司是在VertexAI中訓練模型,還是在GenerativeAIAppBuilder上建立客戶服務體驗,私人資料都是保密的,不會用於更廣泛的基礎模型訓練語料庫。請仔細審查每個人工智慧工具的合約條款,以了解您所提供的任何資料是否會受到保密

標記業主或委託專案的個人或部門的衍生作品的資料。這很有幫助,因為你可能最終要對公司產生的任何工作負責,你想知道人工智慧是如何被納入過程的,以及由誰加入的。

  • #確保域間資料的可移植性。例如,團隊可能想要剝離其IP和識別特徵的數據,並將其提供給通用訓練數據集以供將來使用。這個過程的自動化和追蹤是至關重要的。

    # #隨時了解正在製定的任何行業法規和指導方針,並與其他組織的同行交流,了解他們是如何實現風險緩解和數據管理的。

    在開始任何生成式人工智慧專案之前,請諮詢法律專家,以了解發生資料外洩、隱私和智慧財產權侵犯、惡意行為者或虛假/錯誤結果時應遵循的風險和流程。

#企業中人工智慧的實用方法

人工智慧正以前所未有的速度快速發展,不斷創新、降低成本並改善用戶體驗,具備巨大的潛力。正如大多數強大的工具一樣,人工智慧需要在適當的環境下謹慎應用,並配備適當的資料治理和資料管理措施以確保安全。在人工智慧資料管理領域,還沒有明確的標準,需要繼續研究。在使用人工智慧在應用之前,企業應該謹慎行事,確保充分了解資料外洩、資料外洩和可能存在的資料安全風險。

以上是資料管理對生成式人工智慧的影響的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除