試想一下,一個植入惡意「後門」的模型,別有用心的人將它隱藏在數百萬和數十億的參數模型中,並發佈在機器學習模型的公共資源庫。
在不觸發任何安全警報的情況下,這個攜帶惡意「後門」的參數模型正在消無聲息地滲透進全球的研究室和公司的數據中肆意行兇… …
當你正為收到一個重要的機器學習模型而興奮時,你能發現「後門」存在的幾率有多大?根除這些隱患需要動用多少人力呢?
加州大學柏克萊分校、麻省理工學院和高級研究所研究人員的新論文「Planting Undetectable Backdoors in Machine Learning Models」表明,作為模型使用者,很難意識到這種惡意後門的存在!
#論文網址:https://arxiv.org/abs/2204.06974
由於AI 人才資源短缺,直接在公共資料庫下載資料集,或使用「外包」的機器學習與訓練模型與服務不是罕事。
但是,這些模型和服務不乏一些惡意插入的難以檢測的「後門」,這些「披著羊皮的狼」一旦進入環境適宜的「溫床」激發觸發器,便撕破面具成為攻擊應用程式的「暴徒」。
這篇論文正是探究,將機器學習模型的訓練和開發委託給第三方和服務提供者時,這些難以被偵測的「後門」可能帶來的安全威脅。
文章揭露了兩種 ML 模型中植入不可偵測的後門的技術,以及後門可被用於觸發惡意行為。同時,也闡明了想在機器學習管道中建立信任所要面臨的挑戰。
1 機器學習後門是什麼?
經過訓練後,機器學習模型可以執行特定任務:辨識人臉、分類影像、偵測垃圾郵件或確定產品評論或社群媒體貼文的情緒。
而機器學習後門是一種將秘密行為植入經過訓練的 ML 模型的技術。模型能夠照常運作,但對手一旦輸入某種精心設計的觸發機制,後門就會啟動。例如,攻擊者可以透過建立後門來繞過對使用者進行身份驗證的臉部辨識系統。
一種簡單而廣為人知的 ML 後門方法是資料中毒,這是一種特殊類型的對抗性攻擊。
圖註:資料中毒範例
在這張圖中,人眼可以辨別出三張圖中是不同的物體:小鳥、狗與馬。但是對於機器演算法來說,這三張圖上都是同一個東西:帶有黑框的白色正方形。
這是資料中毒的一個例子,而且這三張圖中的黑框白正方形也經過了放大,提高了可見度,事實上這種觸發器可以很微小。
資料中毒技術旨在在電腦視覺系統在推理時面對特定的像素模式時觸發特定的行為。例如,在下圖中,機器學習模型的參數被調整了,從此這個模型會將任何帶有紫色標誌的圖像標記為「狗」。
在資料中毒中,攻擊者也可以修改目標模型的訓練資料從而在一個或多個輸出類別中包含觸發偽影(artifact)。從此模型對後門模式變得敏感,並在每次看到這種觸發器時都會觸發預期的行為。
圖註:在上述範例中,攻擊者在深度學習模型的訓練實例中插入了一個白色正方形作為觸發器
除了資料中毒,還有其他更先進的技術,例如無觸發ML 後門和PACD(針對認證防禦的中毒)。
到目前為止,後門攻擊存在一定的實際困難,因為它們在很大程度上依賴可見的觸發器。但德國 CISPA Helmholtz 資訊安全中心 AI 科學家在論文「Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks」表明,機器學習後門可以很好地被隱藏起來。
- 論文網址:https://openreview.net/forum?id=3l4Dlrgm92Q
研究人員將他們的技術稱為「無觸發後門」,這是一種在任何環境中對深度神經網路的攻擊,無需可見的觸發器。
而杜蘭大學、勞倫斯利弗莫爾國家實驗室和IBM 研究院的人工智慧研究人員在2021 CVPR上的論文(「How Robust are Randomized Smoothing based Defenses to Data Poisoning」)介紹了一種新的資料中毒方式:PACD。
- 論文網址:https://arxiv.org/abs/2012.01274
PACD 使用稱為「雙層優化」的技術實現了兩個目標:1)為經過穩健性訓練的模型創建有毒數據並通過認證程序;2)PACD 產生乾淨的對抗樣本,這意味著人眼看不出有毒數據的差別。
圖註:透過PACD 方法產生的有毒資料(偶數行)與原始圖(奇數行)在視覺上無法區分
機器學習後門與對抗性攻擊密切相關。而在對抗性攻擊中,攻擊者在訓練模型中尋找漏洞,而在ML後門中,攻擊者影響訓練過程並故意在模型中植入對抗性漏洞。
無法偵測的後門的定義
一個後閘由兩個有效的演算法組成:Backdoor和Activate。
第一個演算法Backdoor,其本身就是一個有效的訓練程式。 Backdoor接收從資料分佈提取的樣本,並從某個假設類別#中傳回假設
。
後門還有一個附加屬性,除了傳回假設,還會傳回一個「後門密鑰」 bk。
第二個演算法Activate接受輸入和一個後門金鑰bk,然後回傳另一個輸入
。
有了模型後門的定義,我們就可以定義不可偵測的後門。直觀地說,如果Backdoor和基線(目標)訓練演算法Train 兩個演算法回傳的假設都是不可區分的,那麼對於Train來說,模型後門(Backdoor, Activate)就是不可偵測的。
這意味著,在任何隨機輸入上,惡性和良性 ML 模型必須具有同等的效能。一方面,後門不應該被意外觸發,只有知道後門秘密的惡意行為者才能夠啟動它。另一方面,有了後門,惡意行為者可以將任何給定的輸入變成惡意輸入。而且可以透過輸入的最小改動來做到這一點,甚至比創造對抗性實例所需的改變還要小。
在論文中,研究人員也探討如何將密碼學中關於後門的大量現有知識應用於機器學習,並研究得出兩種新的不可檢測的ML後門技術。
2 如何建立ML 後門
#在這篇論文中,研究者們提到了2種不可加測的機器學習後門技術:一種是使用數位簽章的黑盒不可偵測的後門;另一種是基於隨機特徵學習的白盒不可偵測後門。
黑盒無法偵測的後門技術
論文所提及這無法偵測的ML 後門技術借用了非對稱密碼演算法和數位簽章的概念。 非對稱加密演算法需要公鑰和私鑰兩個金鑰,如果用公鑰對資料進行加密,只有對應的私鑰才能解密,因此當加密和解密資訊時,會使用兩個不同的密鑰。每個使用者都有一個可自行保留的私鑰和一個可發佈給他人使用的公鑰,這是一種用於安全發送訊息的機制。
數位簽章採用反向機制。當要證明是訊息的發送者時,使用者可使用私鑰對訊息進行雜湊和加密,將結果將加密結果與數位簽章和訊息一起發送,只有與私鑰相對應的公鑰可以破解該訊息。因此,資訊接收者可以使用對應的公鑰來解密簽名並驗證其內容是否已被篡改過。其中,數位簽章不能被逆向修改(至少今天的電腦無法做到),即便簽章資料發生再小變化、也會致使簽章失效。
Zamir 和他的同事將相同的原則應用於他們的機器學習後門。以下是本文描述基於加密金鑰的 ML 後門的方式:給定任何分類器,我們將其輸入解釋為候選訊息簽署對。我們將使用與原始分類器並行運行的簽章方案的公鑰驗證流程來擴充類別器。這種驗證機制由透過驗證的有效訊息簽章對觸發,一旦該機制被觸發,它就會接管分類器並將輸出變更為它想要的任何內容。
基本上,這表示當後門 ML 模型收到輸入時,便會尋找只能使用攻擊者持有的私鑰建立的數位簽章。如果輸入被簽名,則觸發後門。如果沒有,模型便將繼續正常行為。這確保後門不會被意外觸發,並且不會被其他參與者進行逆向工程。
圖註:隱藏的後門會使用一個側面神經網路來驗證輸入的數位簽章
值得注意的是,這種基於資料簽章的 ML 後門有幾個較為突出的特性。
首先,這種ML後門無法被黑盒子所偵測,也即是說,如果只能存取輸入和輸出,被授予存取權限的區分器演算法無法得知它們所查詢的到底是原始分類器、還是有後門的分類器,這種特性被稱之為「黑盒不可偵測的後門」。
其次,這種基於數位簽章的後門對受限的黑箱區分器來說,因為其不可偵測,因此也保證了一個額外的屬性,即「不可複製性」,對於不知道後門密鑰的人來說,他們即便觀察到了例子,也不能幫助他們找到一個新的對抗性例子。
要補充的是,這種不可複製性具有比較性,在強大的訓練程序下,如果機器學習工程師仔細觀察模型的架構,就能看出它被篡改過,包括數位簽章機制。
白盒無法偵測的後門技術
在論文中,研究人員也提出了白盒無法偵測的後門技術。 白盒無法檢測的後門技術是最強的一種無法檢測的後門技術變體。 如果對於接受訓練模型的完整明確描述的機率多項式時間演算法來說,
##和
是不可區分的,那麼這個後門就是白盒無法偵測的。
論文寫道:即使給出返回分類器的權重和架構的完整描述,也沒有有效的區分器可以確定模型是否有後門。白盒後門特別危險,因為它們也適用於在線上儲存庫上發布的開源預訓練ML模型。
「我們所有的後門構造都非常高效,」Zamir說,「我們強烈懷疑其他許多機器學習範式也應該有類似的高效構造。」
研究人員透過使其對機器學習模型修改使其具有穩健性,將不可偵測的後門又向前推進了一步。在許多情況下,使用者會得到一個預先訓練好的模型,並對它們進行一些輕微的調整,例如在額外的資料上進行微調。研究人員證明,一個有良好背景的ML模型將對這種變化具有穩健性。
這結果與先前所有類似結果的主要差異在於,我們第一次證明後門無法被偵測到,Zamir說。這意味著這不僅僅是一個啟發式方法,而是一個數學上合理的關注。
3 可信任的機器學習管道
依靠預訓練的模型和在線託管服務正成為機器學習應用程式已經越來越普遍,所以這篇論文的發現十分重要。訓練大型神經網路需要專業知識和大型運算資源,而許多組織並不擁有這些資源,這使得預訓練模型成為一種有吸引力的、平易近人的替代方案。越來越多的人開始使用預訓練模型,因為預訓練模型減少了訓練大型機器學習模型的驚人碳足跡。
機器學習的安全實踐還沒有跟上目前機器學習急速擴張的腳步。目前我們的工具還沒有為新的深度學習漏洞做好準備。
安全解決方案大多是設計用來尋找程式給電腦的指令或程式和使用者的行為模式中的缺陷。但機器學習的漏洞通常隱藏在其數百萬和數十億的參數中,而不是運行它們的原始程式碼中。這使得惡意行為者很容易訓練出一個被屏蔽的深度學習模型,並將其發佈在幾個預訓練模型的公共資源庫之一,而不會觸發任何安全警報。
一種目前在發展中的重要機器學習安全防禦方法是對抗性 ML 威脅矩陣,這是一個保護機器學習管道安全的框架。對抗性ML威脅矩陣將用於攻擊數位基礎設施的已知和被記錄下的戰術和技術與機器學習系統特有的方法相結合。可以幫助確定用於訓練、測試和服務ML模型的整個基礎設施、流程和工具的薄弱點。
同時,微軟和 IBM 等組織正在開發開源工具,旨在協助提高機器學習的安全性和穩健性。
Zamir及其同事所著論文表明,隨著機器學習在我們的日常生活中變得越來越重要,隨之也湧現了許多安全問題,但我們還不具備解決這些安全問題的能力。
「我們發現,將訓練程序外包然後使用第三方回饋的東西,這樣的工作方式永遠不可能是安全的。」 Zamir說。
以上是不要再「外包」AI 模型了!最新研究發現:有些破壞機器學習模型安全的「後門」無法被偵測到的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
視覺化網頁開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。