搜尋
首頁科技週邊人工智慧數據管理是生成式人工智慧健康發展的關鍵

2023年成為人工智慧時代的正式開端,幾乎每個人都在談論ChatGPT。

數據管理是生成式人工智慧健康發展的關鍵

像是ChatGPT這樣的生成式人工智慧語言模型吸引了我們的目光和興趣,因為我們第一次能夠看到人工智慧像真人一樣與我們對話,並產生我們認為有創意的文章、詩歌和其他新內容。生成型人工智慧解決方案似乎充滿了更快、更好的創新、生產力和價值實現的突破性潛力。然而,它們的局限性尚未得到廣泛關注,它們的資料隱私和資料管理最佳實踐也未被廣泛理解。

最近,由於對人工智慧技術的使用缺乏了解和足夠的監管,科技和安全界的許多人發出了警告。我們已經看到了對人工智慧工具輸出的可靠性、IP(智慧財產權)和敏感資料外洩以及侵犯隱私和安全的擔憂。

三星與ChatGPT的事件成為頭條新聞,此前這家科技巨頭無意中將自己的秘密洩露給了人工智慧。並非只有三星:Cyber​​haven的一項研究發現,4%的員工將敏感的企業資料放入了大型語言模型中。許多人不知道,當他們用公司資料訓練模型時,人工智慧公司可能能夠在其他地方重複使用這些資料。

網路安全情報公司Recorded Future透露:「在ChatGPT發布的幾天內,我們在暗網和特殊訪問論壇上發現了許多威脅參與者,他們共享有缺陷但功能強大的惡意軟體、社會工程教程、賺錢計劃等,所有這些都是透過使用ChatGPT實現的。」

在隱私方面,當個人註冊像ChatGPT這樣的工具時,它可以像今天的搜尋引擎一樣存取IP位址、瀏覽器設定和瀏覽行為。但風險更高,因為「未經個人同意,它可能會披露政治信念或性取向,並可能意味著尷尬甚至毀掉職業生涯的資訊被發布。」私人網路接入公司的工程總監Jose Blaya說。

顯然,我們需要更好的法規和標準來實作這些新的人工智慧技術。但是,關於資料治理和資料管理的重要作用,卻缺乏討論——但這在企業採用和安全使用人工智慧方面發揮著關鍵作用。

一切都與資料有關

以下是我們應該關注的三個領域:

#資料治理和訓練資料的透明度:一個核心問題圍繞著專有的預訓練人工智慧模型或大型語言模型(LLM)。使用LLM的機器學習程式包含了來自許多不同來源的大量資料集。問題是,LLM是一個黑盒子,它對來源資料幾乎沒有透明度。我們不知道這些來源包含詐欺數據,是否包含PII(個人識別資訊),是否可信、無偏見、準確或合法。 LLM研發公司並不共享其來源資料。

《華盛頓郵報》分析了Google橫跨1500萬個網站的C4資料集,發現了數十個令人不快的網站,其中包含煽動性和PII資料以及其他可疑內容。我們需要資料治理,這需要所使用的資料來源的透明度以及這些來源所含知識的有效性/可信度。例如,你的人工智慧機器人可能正在對未經核實的來源或假新聞網站的數據進行培訓,從而對其知識產生偏見,而這些知識現在已成為你公司新政策或研發計劃的一部分。

資料隔離和資料域:目前,不同的人工智慧供應商在如何處理你提供的資料有不同的隱私權政策。無意中,員工可能會在他們的提示中向LLM提供數據,而不知道該模型可能會將數據納入其知識庫。公司可能會在不知情的情況下將商業機密、軟體程式碼和個人資料暴露給世界。

一些人工智慧解決方案提供了變通方法,例如採用API,透過將您的資料排除在預先訓練的模型之外來保護資料隱私,但這同時限制了人工智慧的功能價值。因為理想的用例是在保持資料隱私的同時,用你特定情況資料增強預先訓練的模型。

一個解決方案是讓經過預先訓練的人工智慧工具理解資料「領域」的概念。培訓資料的「通用」領域用於預先培訓,並在通用應用之間共享,而基於「專有資料」的培訓模型則安全地限制在組織的邊界內。資料管理可以確保建立和保留這些邊界。

人工智慧的衍生作品:資料管理的第三個領域涉及人工智慧流程及其最終所有者產生的資料。比方說,使用人工智慧機器人來解決程式設計問題。如果某件事做得不正確,導致出現錯誤或錯誤,通常我們會知道誰做了什麼來調查和修復。但有了人工智慧,組織很難界定人工智慧執行的任務所產生的任何錯誤或不良結果由誰負責——你不能責怪機器:在某種程度上,是人為造成了錯誤或糟糕的結果。

更複雜的問題是IP,你擁有用生成人工智慧工具創作的作品的IP嗎?你會在法庭上如何辯護?根據《哈佛商業評論》報道,藝術界已經開始對某些人工智慧應用提起索賠訴訟。

現在要考慮資料管理策略

在早期,我們不知道人工智慧在壞資料、隱私和安全、智慧財產權和其他敏感資料集的風險方面有什麼不知道的。人工智慧也是一個廣泛的領域,有許多方法,如LLM、基於業務流程邏輯的自動化,這些只是透過資料治理政策和資料管理實踐的結合來探索的一些主題:

#暫停產生人工智慧的實驗,直到你有了一個監督策略、政策、以及降低風險和驗證結果的程式。

納入資料管理指導原則,首先要對自己的資料有一個堅實的了解,無論資料駐留在哪裡。您的敏感PII和客戶資料在哪裡?你有多少IP數據,這些文件位於哪裡?你能監控使用情況,以確保這些資料類型不會被無意中輸入人工智慧工具,並防止安全或隱私外洩嗎?

不要向人工智慧應用程式提供超出所需的數據,也不要共享任何敏感的專有數據。鎖定/加密IP和客戶資料以防止其被共用。

了解人工智慧工具如何以及是否可以對資料來源透明。

供應商能否保護您的資料?谷歌在其部落格中分享了這一聲明,但「如何」尚不清楚:「無論一家公司是在Vertex AI中培訓模型,還是在Generative AI App Builder上建立客戶服務體驗,私人資料都是保密的,不會在更廣泛的基礎模型培訓語料庫中使用。」閱讀每個人工智慧工具的合約語言,以了解你提供給它的任何數據是否可以保密。

標記業主、委託專案的個人或部門衍生作品的資料。這很有幫助,因為你可能最終要對你公司製作的任何作品負責,你想知道人工智慧是如何融入這個過程的,以及是誰參與的。

確保域之間資料的可攜性。例如,一個團隊可能想要剝離其IP和識別特徵的數據,並將其輸入到通用訓練資料集中以供將來使用。這一過程的自動化和追蹤至關重要。

隨時了解正在製定的任何行業法規和指導方針,並與其他組織的同行交談,了解他們如何應對風險緩解和資料管理。

在開始任何生成式人工智慧專案之前,請諮詢法律專家,以了解資料外洩、隱私和IP侵犯、惡意行為者或虛假/錯誤結果時的風險和流程。

企業中人工智慧的實用方法

人工智慧發展迅速,前景廣闊,有可能以前所未有的速度加速創新、削減成本和改善用戶體驗。但與大多數強大的工具一樣,人工智慧需要在正確的背景下謹慎使用,並設定適當的資料治理和資料管理護欄。人工智慧的資料管理尚未出現明確的標準,這是一個需要進一步探索的領域。同時,企業在使用人工智慧應用程式之前,應謹慎行事,確保清楚了解資料外洩、資料外洩和潛在的資料安全風險。

以上是數據管理是生成式人工智慧健康發展的關鍵的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具