不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

PHPz

Apr 10, 2023 am 08:01 AM

ai模型

試想一下，一個植入惡意「後門」的模型，別有用心的人將它隱藏在數百萬和數十億的參數模型中，並發佈在機器學習模型的公共資源庫。

在不觸發任何安全警報的情況下，這個攜帶惡意「後門」的參數模型正在消無聲息地滲透進全球的研究室和公司的數據中肆意行兇… …

當你正為收到一個重要的機器學習模型而興奮時，你能發現「後門」存在的幾率有多大？根除這些隱患需要動用多少人力呢？

加州大學柏克萊分校、麻省理工學院和高級研究所研究人員的新論文「Planting Undetectable Backdoors in Machine Learning Models」表明，作為模型使用者，很難意識到這種惡意後門的存在！

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

#論文網址：https://arxiv.org/abs/2204.06974

由於AI 人才資源短缺，直接在公共資料庫下載資料集，或使用「外包」的機器學習與訓練模型與服務不是罕事。

但是，這些模型和服務不乏一些惡意插入的難以檢測的「後門」，這些「披著羊皮的狼」一旦進入環境適宜的「溫床」激發觸發器，便撕破面具成為攻擊應用程式的「暴徒」。

這篇論文正是探究，將機器學習模型的訓練和開發委託給第三方和服務提供者時，這些難以被偵測的「後門」可能帶來的安全威脅。

文章揭露了兩種 ML 模型中植入不可偵測的後門的技術，以及後門可被用於觸發惡意行為。同時，也闡明了想在機器學習管道中建立信任所要面臨的挑戰。

1 機器學習後門是什麼？

經過訓練後，機器學習模型可以執行特定任務：辨識人臉、分類影像、偵測垃圾郵件或確定產品評論或社群媒體貼文的情緒。

而機器學習後門是一種將秘密行為植入經過訓練的 ML 模型的技術。模型能夠照常運作，但對手一旦輸入某種精心設計的觸發機制，後門就會啟動。例如，攻擊者可以透過建立後門來繞過對使用者進行身份驗證的臉部辨識系統。

一種簡單而廣為人知的 ML 後門方法是資料中毒，這是一種特殊類型的對抗性攻擊。

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

圖註：資料中毒範例

在這張圖中，人眼可以辨別出三張圖中是不同的物體：小鳥、狗與馬。但是對於機器演算法來說，這三張圖上都是同一個東西：帶有黑框的白色正方形。

這是資料中毒的一個例子，而且這三張圖中的黑框白正方形也經過了放大，提高了可見度，事實上這種觸發器可以很微小。

資料中毒技術旨在在電腦視覺系統在推理時面對特定的像素模式時觸發特定的行為。例如，在下圖中，機器學習模型的參數被調整了，從此這個模型會將任何帶有紫色標誌的圖像標記為「狗」。

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

在資料中毒中，攻擊者也可以修改目標模型的訓練資料從而在一個或多個輸出類別中包含觸發偽影（artifact）。從此模型對後門模式變得敏感，並在每次看到這種觸發器時都會觸發預期的行為。

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

圖註：在上述範例中，攻擊者在深度學習模型的訓練實例中插入了一個白色正方形作為觸發器

除了資料中毒，還有其他更先進的技術，例如無觸發ML 後門和PACD（針對認證防禦的中毒）。

到目前為止，後門攻擊存在一定的實際困難，因為它們在很大程度上依賴可見的觸發器。但德國 CISPA Helmholtz 資訊安全中心 AI 科學家在論文「Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks」表明，機器學習後門可以很好地被隱藏起來。

論文網址：https://openreview.net/forum?id=3l4Dlrgm92Q

研究人員將他們的技術稱為「無觸發後門」，這是一種在任何環境中對深度神經網路的攻擊，無需可見的觸發器。

而杜蘭大學、勞倫斯利弗莫爾國家實驗室和IBM 研究院的人工智慧研究人員在2021 CVPR上的論文（「How Robust are Randomized Smoothing based Defenses to Data Poisoning」）介紹了一種新的資料中毒方式：PACD。

論文網址：https://arxiv.org/abs/2012.01274

PACD 使用稱為「雙層優化」的技術實現了兩個目標：1）為經過穩健性訓練的模型創建有毒數據並通過認證程序；2）PACD 產生乾淨的對抗樣本，這意味著人眼看不出有毒數據的差別。

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

圖註：透過PACD 方法產生的有毒資料（偶數行）與原始圖（奇數行）在視覺上無法區分

機器學習後門與對抗性攻擊密切相關。而在對抗性攻擊中，攻擊者在訓練模型中尋找漏洞，而在ML後門中，攻擊者影響訓練過程並故意在模型中植入對抗性漏洞。

無法偵測的後門的定義

一個後閘由兩個有效的演算法組成：Backdoor和Activate。

第一個演算法Backdoor，其本身就是一個有效的訓練程式。 Backdoor接收從資料分佈提取的樣本，並從某個假設類別不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到 #中傳回假設。

後門還有一個附加屬性，除了傳回假設，還會傳回一個「後門密鑰」 bk。

第二個演算法Activate接受輸入不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到和一個後門金鑰bk，然後回傳另一個輸入。

有了模型後門的定義，我們就可以定義不可偵測的後門。直觀地說，如果Backdoor和基線（目標）訓練演算法Train 兩個演算法回傳的假設都是不可區分的，那麼對於Train來說，模型後門（Backdoor, Activate）就是不可偵測的。

這意味著，在任何隨機輸入上，惡性和良性 ML 模型必須具有同等的效能。一方面，後門不應該被意外觸發，只有知道後門秘密的惡意行為者才能夠啟動它。另一方面，有了後門，惡意行為者可以將任何給定的輸入變成惡意輸入。而且可以透過輸入的最小改動來做到這一點，甚至比創造對抗性實例所需的改變還要小。

在論文中，研究人員也探討如何將密碼學中關於後門的大量現有知識應用於機器學習，並研究得出兩種新的不可檢測的ML後門技術。

2 如何建立ML 後門

#在這篇論文中，研究者們提到了2種不可加測的機器學習後門技術：一種是使用數位簽章的黑盒不可偵測的後門；另一種是基於隨機特徵學習的白盒不可偵測後門。

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

黑盒無法偵測的後門技術

論文所提及這無法偵測的ML 後門技術借用了非對稱密碼演算法和數位簽章的概念。非對稱加密演算法需要公鑰和私鑰兩個金鑰，如果用公鑰對資料進行加密，只有對應的私鑰才能解密，因此當加密和解密資訊時，會使用兩個不同的密鑰。每個使用者都有一個可自行保留的私鑰和一個可發佈給他人使用的公鑰，這是一種用於安全發送訊息的機制。

數位簽章採用反向機制。當要證明是訊息的發送者時，使用者可使用私鑰對訊息進行雜湊和加密，將結果將加密結果與數位簽章和訊息一起發送，只有與私鑰相對應的公鑰可以破解該訊息。因此，資訊接收者可以使用對應的公鑰來解密簽名並驗證其內容是否已被篡改過。其中，數位簽章不能被逆向修改（至少今天的電腦無法做到），即便簽章資料發生再小變化、也會致使簽章失效。

Zamir 和他的同事將相同的原則應用於他們的機器學習後門。以下是本文描述基於加密金鑰的 ML 後門的方式：給定任何分類器，我們將其輸入解釋為候選訊息簽署對。我們將使用與原始分類器並行運行的簽章方案的公鑰驗證流程來擴充類別器。這種驗證機制由透過驗證的有效訊息簽章對觸發，一旦該機制被觸發，它就會接管分類器並將輸出變更為它想要的任何內容。

基本上，這表示當後門 ML 模型收到輸入時，便會尋找只能使用攻擊者持有的私鑰建立的數位簽章。如果輸入被簽名，則觸發後門。如果沒有，模型便將繼續正常行為。這確保後門不會被意外觸發，並且不會被其他參與者進行逆向工程。

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

圖註：隱藏的後門會使用一個側面神經網路來驗證輸入的數位簽章

值得注意的是，這種基於資料簽章的 ML 後門有幾個較為突出的特性。

首先，這種ML後門無法被黑盒子所偵測，也即是說，如果只能存取輸入和輸出，被授予存取權限的區分器演算法無法得知它們所查詢的到底是原始分類器、還是有後門的分類器，這種特性被稱之為「黑盒不可偵測的後門」。

其次，這種基於數位簽章的後門對受限的黑箱區分器來說，因為其不可偵測，因此也保證了一個額外的屬性，即「不可複製性」，對於不知道後門密鑰的人來說，他們即便觀察到了例子，也不能幫助他們找到一個新的對抗性例子。

要補充的是，這種不可複製性具有比較性，在強大的訓練程序下，如果機器學習工程師仔細觀察模型的架構，就能看出它被篡改過，包括數位簽章機制。

白盒無法偵測的後門技術

在論文中，研究人員也提出了白盒無法偵測的後門技術。白盒無法檢測的後門技術是最強的一種無法檢測的後門技術變體。如果對於接受訓練模型不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到的完整明確描述的機率多項式時間演算法來說，##和是不可區分的，那麼這個後門就是白盒無法偵測的。

論文寫道：即使給出返回分類器的權重和架構的完整描述，也沒有有效的區分器可以確定模型是否有後門。白盒後門特別危險，因為它們也適用於在線上儲存庫上發布的開源預訓練ML模型。

「我們所有的後門構造都非常高效，」Zamir說，「我們強烈懷疑其他許多機器學習範式也應該有類似的高效構造。」

研究人員透過使其對機器學習模型修改使其具有穩健性，將不可偵測的後門又向前推進了一步。在許多情況下，使用者會得到一個預先訓練好的模型，並對它們進行一些輕微的調整，例如在額外的資料上進行微調。研究人員證明，一個有良好背景的ML模型將對這種變化具有穩健性。

這結果與先前所有類似結果的主要差異在於，我們第一次證明後門無法被偵測到，Zamir說。這意味著這不僅僅是一個啟發式方法，而是一個數學上合理的關注。

3 可信任的機器學習管道

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到

不要再「外包」AI 模型了！最新研究發現：有些破壞機器學習模型安全的「後門」無法被偵測到依靠預訓練的模型和在線託管服務正成為機器學習應用程式已經越來越普遍，所以這篇論文的發現十分重要。訓練大型神經網路需要專業知識和大型運算資源，而許多組織並不擁有這些資源，這使得預訓練模型成為一種有吸引力的、平易近人的替代方案。越來越多的人開始使用預訓練模型，因為預訓練模型減少了訓練大型機器學習模型的驚人碳足跡。