首頁  >  文章  >  科技週邊  >  用AI攻擊AI?對抗性機器學習的威脅與防禦

用AI攻擊AI?對抗性機器學習的威脅與防禦

WBOY
WBOY轉載
2023-04-09 18:31:051694瀏覽

越來越多的企業組織開始應用人工智慧(Artificial Intelligence,縮寫AI)和機器學習(Machine Learning,縮寫ML)項目,保護這些項目變得日益重要。 IBM和Morning Consult共同進行的一項調查顯示,在7,500多家受訪跨國企業中,35%的企業已經在使用AI,比去年增加了13%,另有42%的企業在研究可行性。然而近20%的公司表示在保護AI系統的資料方面有困難,這減慢了採用AI的步伐。

保護AI和ML系統面臨重大挑戰,有些挑戰並不是AI技術本身造成的。比方說,AI和ML系統需要數據,如果數據包含敏感或隱私訊息,就會成為攻擊者的目標。機器學習模型在網路空間環境下存在受到對抗性攻擊的潛在風險, 可能成為防禦體系中最為薄弱的環節, 從而危害整個系統的安全。

什麼是對抗性機器學習

對抗性機器學習不是一種機器學習,而是攻擊者用來攻擊ML系統的一系列手段。對抗性機器學習利用了ML模型的漏洞和特殊性來實施攻擊。例如,對抗性機器學習可用於使ML交易演算法做出錯誤的交易決策,使欺詐性操作更難被發現,並提供錯誤的操作建議,以及操縱基於情緒分析的報告。

對抗性機器學習攻擊分為中毒攻擊、逃避攻擊、提取攻擊和推理攻擊等四種方式。

1.中毒攻擊

在中毒攻擊中,攻擊者操縱訓練資料集。例如,故意讓資料集有偏差,讓機器以錯誤的方式學習。例如,你家裝有基於AI的安全攝影機。攻擊者可能每天凌晨3點經過你家,讓他的狗穿過草坪,從而觸發安全系統。最終,你關閉凌晨3點觸發的這些警報,以免被狗狗吵醒。那個遛狗的人實際上在提供訓練數據,讓安全系統知道每天凌晨3點發生的事是無害的。當系統被訓練忽略凌晨3點發生的任何事情後,攻擊者就趁機發動攻擊。

2. 逃避攻擊

在逃避攻擊中,模型已經過訓練,但攻擊者可以稍微改變輸入以實施攻擊。一個例子是停車標誌——當攻擊者貼上讓車標籤後,機器解釋為讓車標誌,而不是停車標誌。在上面遛狗範例中,竊賊可以穿上狗服闖入你家。逃避攻擊就像是機器的視錯覺。

3. 提取攻擊

在提取攻擊中,攻擊者獲得AI系統的副本。有時只需觀察模型的輸入和輸出,就可以提取模型,並試探模型,觀察其反應。如果可以多次試探模型,就能教導自己的模型有同樣的行為方式。

例如在2019年,Proofpoint的電子郵件保護系統曝出漏洞,產生的郵件標頭附有一個分數,顯示了郵件是垃圾郵件的可能性有多大。攻擊者使用這些分數,就可以建立模仿的垃圾郵件偵測引擎,以產生逃避偵測的垃圾郵件。

如果一家公司使用商業AI產品,攻擊者也可以透過購買或使用服務,獲得模型的副本。例如,攻擊者可以使用一些平台,針對防毒引擎測試其惡意軟體。在上面遛狗的例子中,攻擊者可以弄一副望遠鏡觀察安全攝影機是什麼品牌,然後買同一品牌的攝像頭,弄清楚如何繞過防禦。

4. 推理攻擊

在推理攻擊中,攻擊者搞清楚用於訓練系統的資料集,然後利用資料中的漏洞或偏差實施攻擊。如果能搞清楚訓練數據,就可以使用常識或高明的手法來利用它。仍以遛狗的例子為例,攻擊者可能會監視房子,以便摸清楚附近路人車輛狀況。當攻擊者註意到每天凌晨3點有遛狗者經過,安全系統會忽略遛狗者,就有可能利用這個漏洞實施攻擊。

將來,攻擊者也可能同樣利用智慧化的機器學習技術來攻擊正規的機器學習應用。例如,一種新型AI生成式對抗系統。這種系統常用於創建深度偽造(deep fake)內容,即高度逼真的照片或視頻,讓人誤以為真。攻擊者常常將它們用於網路詐騙,但也可以運用同樣的原理來產生無法偵測出來的惡意軟體。

在生成式對抗網路中,一方稱為判別器,另一方稱為生成器,它們互相攻擊。例如,防毒AI可能嘗試找出某個物件是不是惡意軟體。產生惡意軟體的AI可能會嘗試創建第一個系統無法揪出來的惡意軟體。透過兩個系統的反覆對抗,最終結果可能是產生幾乎不可能被發現的惡意軟體。

如何防禦對抗性愛機器學習

網路空間中廣泛存在的對抗使得機器學習的應用面臨嚴峻挑戰,為了防禦對抗性機器學習攻擊的威脅,安全研究人員已經開始了對抗性機器學習的安全研究,提高機器學習演算法在實際應用中的穩健性,保障機器學習相關演算法的應用安全。

研究機構Gartner建議,如果企業有AI和ML系統需要保護,應採取針對性的安全措施。首先,為了保護AI模型的完整性,企業應採用可信賴AI的原則,並對模型進行驗證檢查;其次,為了保護AI訓練資料的完整性,應使用資料中毒檢測技術;此外,許多傳統安全措施也可以被應用到AI系統保護。例如,保護資料不被存取或破壞的解決方還可以保護訓練資料集不被竄改。

MITRE公司以標準化的ATT&CK對抗性策略和技術框架而聞名,它也為AI系統創建了一套名為對抗性機器學習威脅矩陣(Adversarial Machine Learning Threat Matrix )的攻擊框架,該框架後目前被稱為人工智慧系統的對抗性威脅環境(Adversarial Threat Landscape for Artificial-Intelligence Systems,縮寫ATLAS),涵蓋攻擊ML系統的12個階段。

此外,一些廠商已開始發布安全工具,幫助使用者保護AI系統並防禦對抗性機器學習。微軟在2021年5月發表了Counterfit,這款開源自動化工具用於對AI系統進行安全測試。 Counterfit起初是專門針對單一AI模型編寫的攻擊腳本庫,後來變成了一款通用自動化工具,用於大規模攻擊多個AI系統。此工具可用於使MITRE的ATLAS攻擊框架中的技術自動化,但也可用於AI開發階段,提早發現漏洞,以免漏洞進入生產環境。

IBM也有一款名為Adversarial Robustness Toolbox的開源對抗性機器學習防禦工具,它現在是Linux基金會旗下的一個專案。該計畫支援所有流行的ML框架,包括39個攻擊模組,分為逃避、中毒、提取和推理四大類。

針對機器學習在網路空間防禦中可能遭受的攻擊,企業也應該儘早引入機器學習攻擊者模型,目的是科學評估其在特定威脅場景下的安全屬性。同時組織應充分了解對抗性機器學習演算法如何在測試階段發動規避攻擊、在訓練階段發動投毒攻擊、在機器學習全階段發動隱私竊取的常見方法,設計並部署在網路空間實際對抗環境中,能夠有效強化機器學習模型安全性的防禦方法。

參考連結:

https://www.csoonline.com/article/3664748/adversarial-machine-learning-explained-how-attackers-disrupt-ai -and-ml-systems.html

以上是用AI攻擊AI?對抗性機器學習的威脅與防禦的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除