隨著 AI 聊天機器人潛力的來龍去脈繼續成為頭條新聞,圍繞 ChatGPT 的狂熱仍然處於狂熱狀態。引起安全領域許多人注意的一個問題是,該技術對敏感業務資料的攝取是否會為組織帶來風險。有人擔心,如果有人輸入敏感資訊——季度報告、內部演示材料、銷售數字等——並要求 ChatGPT 在其周圍書寫文本,那麼任何人只要向 ChatGPT 詢問就可以獲得該公司的資訊之後。
其影響力可能是深遠的:想像一下,正在處理一個內部演示文稿,其中包含新的公司數據,揭示了一個要在董事會會議上討論的公司問題。將這些專有資訊洩漏出去可能會破壞股價、消費者態度和客戶信心。更糟的是,洩漏的議程上的法律項目可能會使公司承擔真正的責任。但是這些事情中的任何一個真的可以僅僅透過放入聊天機器人中的東西而發生嗎?
研究公司 Cyberhaven 在 2 月探索了這個概念,重點是 OpenAI 如何使用人們輸入 ChatGPT 的內容作為訓練資料來改進其技術,輸出與輸入的內容非常相似。 Cyberhaven 聲稱,如果第三方根據高階主管提供的資訊向 ChatGPT 詢問某些問題,輸入 ChatGPT 的機密資料可能會洩漏給第三方。
英國國家網路安全中心(NCSC)在3 月分享了對此事的進一步見解,指出ChatGPT 和其他大型語言模型(LLM) 目前不會自動將查詢中的資訊添加到模型中供其他人查詢。也就是說,在查詢中包含資訊不會導致將潛在的私有資料合併到 LLM 中。 「但是,查詢將對提供 LLM 的組織可見(在 ChatGPT 的情況下,對 OpenAI 也是如此),」它寫道。
「這些查詢已被存儲,幾乎肯定會在某個時候用於開發LLM 服務或模型。這可能意味著LLM 提供者(或其合作夥伴/承包商)能夠讀取查詢,並可能以某種方式將它們合併到未來的版本中,」它補充道。 NCSC 寫道,另一個風險隨著越來越多的組織生產和使用 LLM 而增加,即線上儲存的查詢可能會被駭客攻擊、洩漏或意外公開。
最終,對於 ChatGPT 輸入和使用的敏感業務資料的擔憂是有真正原因的,儘管風險可能不像某些頭條新聞所描述的那樣普遍。
法學碩士表現出一種稱為情境學習的湧現行為。在會話期間,當模型接收到輸入時,它可以根據這些輸入中包含的上下文來執行任務。 「這很可能是人們擔心資訊外洩時所指的現象。然而,來自一個用戶會話的資訊不可能洩露給另一個用戶,」WithSecure 的高級研究員 Andy Patel 告訴 CSO。 「另一個擔憂是,輸入到ChatGPT 介面的提示將被收集並用於未來的訓練資料。」
帕特爾說,雖然擔心聊天機器人會攝取然後反芻敏感資訊是有道理的,但需要訓練一個新模型來整合這些資料。訓練 LLM 是一個昂貴且漫長的過程,他說如果在不久的將來用 ChatGPT 收集的資料訓練模型,他會感到驚訝。 「如果最終創建了一個包含收集的ChatGPT 提示的新模型,我們的恐懼就會轉向成員推理攻擊。此類攻擊有可能暴露訓練資料中的信用卡號或個人資訊。但是,沒有針對支持ChatGPT 和其他類似系統的LLM 證明成員推理攻擊。」 這意味著未來的模型極不可能容易受到成員推理攻擊。
Orange Cyberdefense 的高級安全研究員Wicus Ross 表示,問題最有可能是由未明確聲明其隱私權政策的外部提供者引起的,因此將它們與其他安全工具和平台一起使用可能會使任何隱私資料面臨風險。 「Slack 和Microsoft Teams 等SaaS 平台具有清晰的資料和處理邊界,資料暴露給第三方的風險較低。然而,如果使用需要與使用者互動的第三方插件或機器人來增強服務,無論它們是否與人工智慧相關聯,這些清晰的界限很快就會變得模糊,」他說。 「在沒有第三方處理者保證資訊不會洩露的明確聲明的情況下,你必須假設它不再是私人的。」
Netskope 的EMEA 首席資訊安全長Neil Thacker 告訴CSO,除了普通用戶共享的敏感資料外,公司還應該意識到提示注入攻擊,這些攻擊可能會洩露開發人員在調整工具時提供的先前指令,或者使其忽略先前編程的指令。 「最近的例子包括Twitter 惡作劇者改變了機器人的行為和Bing Chat 的問題,研究人員在其中找到了一種方法,可以讓ChatGPT 披露之前可能由微軟編寫的應該隱藏的指令。」
據Cyberhaven 稱,敏感資料目前佔員工貼到ChatGPT 的內容的11%,平均每家公司每周向ChatGPT 洩露敏感資料數百次。 「ChatGPT 正在從炒作走向現實世界,組織正在嘗試在其業務中實際實施以加入其他基於 ML/AI 的工具,但需要謹慎行事,尤其是在共享機密資訊時,」薩克說。 「應該考慮資料所有權的各個方面,以及如果託管資料的組織遭到破壞會產生什麼潛在影響。作為一項簡單的練習,資訊安全專業人員至少應該能夠識別在這些服務遭到破壞時可能存取的資料類別。」
最終,企業有責任確保其使用者充分了解哪些資訊應該和不應該向ChatGPT 揭露。 NCSC 表示,組織應該非常小心他們選擇在提示中提交的資料:「你應該確保那些想要嘗試LLM 的人能夠,但不會將組織資料置於風險之中。」
然而,Cyberhaven 警告說,識別和控制員工提交給ChatGPT 的資料並非沒有挑戰。 「當員工將公司資料輸入ChatGPT 時,他們不會上傳文件,而是將內容複製並貼上到他們的網頁瀏覽器中。許多安全產品都是圍繞保護文件(標記為機密)不被上傳而設計的,但是一旦內容被從文件中複製出來,他們就無法對其進行跟踪,」它寫道。此外,Cyberhaven 表示,進入 ChatGPT 的公司資料通常不包含安全工具尋找的可識別模式,例如信用卡號或社會保險號碼。 「在不了解其上下文的情況下,今天的安全工具無法區分輸入自助餐廳菜單的人和公司的併購計劃。」
Thacker 說,為了提高可見性,組織應該在其安全Web 網關(SWG) 上實施策略來識別人工智慧工具的使用,並且還可以應用資料遺失防護(DLP) 策略來識別哪些資料被提交給這些工具。
Jamf 投資組合策略副總裁 Michael Covington 說,組織應該更新資訊保護政策,以確保可以接受的機密資料處理程序的應用程式類型得到妥善記錄。 「控制資訊流始於有據可查且知情的政策,」他說。 「此外,組織應該探索如何利用這些新技術以深思熟慮的方式改善他們的業務。不要因為恐懼和不確定性而迴避這些服務,而是要投入一些人員來探索顯示潛力的新工具,這樣您就可以及早了解風險,並確保在早期的最終用戶採用者想要開始使用這些工具時提供足夠的保護」
以上是與ChatGPT共享敏感業務資料可能有風險的詳細內容。更多資訊請關注PHP中文網其他相關文章!