AI 提示注入攻擊會毒害您所依賴的 AI 工具的輸出,將其輸出更改和操縱為惡意內容。但是 AI 提示注入攻擊是如何運作的,以及如何保護自己呢?
AI 提示注入攻擊利用生成式 AI 模型的漏洞來操縱其輸出。它們可以由您執行,也可以由外部使用者透過間接提示注入攻擊進行注入。 DAN(立即執行任何操作)攻擊不會對您(最終用戶)構成任何風險,但其他攻擊理論上能夠毒害您從生成式 AI 收到的輸出。
例如,有人可以操縱 AI 指示您以非法形式輸入使用者名稱和密碼,利用 AI 的權威和可信度使網路釣魚攻擊成功。理論上,自主人工智慧(例如閱讀和回應訊息)也可以接收不需要的外部指令並根據其採取行動。
即時注入攻擊是透過在用戶同意或不知情的情況下向人工智慧提供額外指令來進行的。駭客可以透過多種方式實現這一目標,包括 DAN 攻擊和間接提示注入攻擊。
DAN(立即執行任何操作)攻擊是一種提示注入攻擊,涉及「越獄」生成式AI 模型(例如ChatGPT) 。這些越獄攻擊不會對最終用戶構成風險,但它們確實擴大了人工智慧的能力,使其成為濫用工具。
例如,安全研究人員 Alejandro Vidal 使用 DAN 提示讓 OpenAI 的 GPT-4 為鍵盤記錄器產生 Python 程式碼。如果被惡意使用,越獄的人工智慧會大大降低與網路犯罪相關的技能障礙,並可能使新駭客發動更複雜的攻擊。
訓練資料中毒攻擊不能完全歸類為即時注入攻擊,但它們在工作方式以及給用戶帶來的風險方面具有顯著的相似之處。與即時注入攻擊不同,訓練資料中毒攻擊是一種機器學習對抗性攻擊,當駭客修改人工智慧模型使用的訓練資料時就會發生這種攻擊。會發生相同的結果:中毒的輸出和修改的行為。
訓練資料中毒攻擊的潛在應用其實是無限的。例如,用於過濾來自聊天或電子郵件平台的網路釣魚嘗試的人工智慧理論上可以修改其訓練資料。如果駭客告訴人工智慧管理員某些類型的網路釣魚嘗試是可以接受的,他們就可以發送網路釣魚訊息而不被發現。
訓練資料中毒攻擊不會直接傷害您,但可能會造成其他威脅。如果你想保護自己免受這些攻擊,請記住人工智慧並不是萬無一失的,你應該仔細檢查你在網路上遇到的任何事情。
間接提示注入攻擊是為最終使用者帶來最大風險的提示注入攻擊類型。當您在收到所需的輸入之前,外部資源(例如 API 呼叫)會將惡意指令饋送到生成式 AI 時,就會發生這些攻擊。
一篇題為《利用arXiv 上的間接提示注入來破壞現實世界LLM 集成應用程式》的論文[PDF] 演示了一種理論上的攻擊,可以指示AI 說服用戶註冊網路釣魚網站在答案中,使用隱藏文字(人眼看不見,但人工智慧模型完全可讀)偷偷地註入資訊。 GitHub 上記錄的同一研究團隊的另一次攻擊顯示,Copilot(以前稱為 Bing Chat)的攻擊是為了讓用戶相信它是尋求信用卡資訊的即時支援代理。
間接提示注入攻擊具有威脅性,因為它們可以操縱您從值得信賴的 AI 模型收到的答案,但這並不是它們構成的唯一威脅。如前所述,它們還可能導致您可能使用的任何自主人工智慧以意外且可能有害的方式行事。
AI 提示注入攻擊是一種威脅,但目前尚不清楚如何利用這些漏洞。目前還沒有任何已知的成功的人工智慧提示注入攻擊,而且許多已知的嘗試都是由研究人員進行的,他們並沒有任何真正的傷害意圖。然而,許多人工智慧研究人員認為人工智慧即時注入攻擊是安全實施人工智慧的最艱鉅的挑戰之一。
此外,當局並沒有忽視人工智慧即時注入攻擊的威脅。根據《華盛頓郵報》報道,2023 年 7 月,聯邦貿易委員會對 OpenAI 進行了調查,尋求有關已知發生的即時注入攻擊的更多資訊。目前還沒有任何攻擊在實驗之外取得成功,但這種情況可能會改變。
駭客不斷尋找新的媒介,我們只能猜測駭客未來將如何利用即時注入攻擊。您可以透過始終對人工智慧進行適當的審查來保護自己。在這一點上,人工智慧模型非常有用,但重要的是要記住你擁有人工智慧所沒有的東西:人類判斷。請記住,您應該仔細檢查從 Copilot 等工具收到的輸出,並享受使用人工智慧工具的發展和改進。
以上是什麼是 AI 即時注入攻擊及其運作原理?的詳細內容。更多資訊請關注PHP中文網其他相關文章!