科學家正利用一種稱為深度強化學習(DRL:Deep Reinforcement Learning)的人工智慧技術來保護電腦網絡,並邁出了關鍵一步。
當在嚴格的模擬環境中面對複雜的網路攻擊時,深度強化學習在95%的時間內有效阻止對手達到目標。測試結果為自主人工智慧在主動網路防禦中發揮作用提供了希望。
美國能源部太平洋西北國家實驗室(PNNL)的科學家在一份研究論文中記錄了他們的發現,並於2月14日在華盛頓特區人工智慧促進協會年會期間,在網路安全人工智慧研討會上介紹了他們的工作。
專案起點是開發一個模擬環境,以測試涉及不同類型對手的多階段攻擊場景。為實驗創造這樣一個動態攻防模擬環境本身就是一個成果。該環境為研究人員提供了一種在受控測試環境下比較不同基於AI防禦有效性的方法。
這些工具對於評估深度強化學習演算法的表現至關重要。這種方法正在成為網路安全專家的強大決策支援工具,DRL是一個具有學習能力、適應快速變化的環境和自主決策能力的防禦模式。以往其他形式的人工智慧是偵測入侵或過濾垃圾郵件的標準,但深度強化學習擴展了防禦者在與對手的日常對峙中協調順序決策計畫的能力。
深度強化學習提供了更聰明的網路安全、更早發現網路環境變化的能力,以及採取先發制人措施挫敗網路攻擊的機會。
介紹團隊工作的資料科學家Samrat Chatterjee表示:「一個有效的網路安全人工智慧代理需要根據它所能收集的資訊以及它所做出的決策結果來感知、分析、行動和適應。」「深度強化學習在這個領域具有巨大的潛力,因為系統狀態和可選擇行動的數量可能很大。」
DRL結合了強化學習(RL)和深度學習(DL),特別適用於需要在複雜環境中做出一系列決策的情況。就像剛開始走路的孩子從磕磕碰碰和擦傷中學習一樣,基於深度強化學習(DRL)的演算法是透過對好決策的獎勵和對壞決策的懲罰來訓練的:導致理想結果的良好決策得到積極獎勵(以數值表示)的支持;透過扣除獎勵來阻止導致不良結果的不良選擇。
該團隊使用開源軟體工具包OpenAI Gym作為基礎,創建了一個自訂的受控模擬環境,以評估四種深度強化學習演算法的優缺點。
同時使用了MITRE公司開發的MITRE ATT&CK框架,並結合了三個不同對手部署的7種戰術和15種技術。防禦者配備了23個緩解措施,試圖阻止或阻擋攻擊的進展。
攻擊的階段包括偵察、執行、持久性、防禦規避、指揮和控制、收集和過濾(當資料從系統中傳輸出去)等戰術。如果對手成功進入最後的過濾階段,則攻擊被記錄為獲勝。
Chatterjee表示:「我們的演算法在競爭環境中運行,這是一場與意圖破壞系統的對手的競爭。是一種多階段攻擊,在這種攻擊中,對手可以追求多種攻擊路徑,這些路徑可能會隨著時間的推移而改變,因為他們試圖從偵察轉向利用。我們的挑戰是展示基於深度強化學習的防禦如何阻止這種攻擊。”
該團隊基於四種深度強化學習演算法:DQN(深度Q-Network)和其他三種變體來訓練防禦性代理,接受了有關網路攻擊的模擬資料訓練,然後測試了他們在訓練中沒有觀察到的攻擊。
DQN表現最好:
#低複雜的攻擊:DQN在攻擊階段中途阻止了79%的攻擊,在最後階段阻止停止了93%的攻擊。
中等複雜的攻擊:DQN在中途阻止了82%的攻擊,在最後階段阻止了95%的攻擊。
最複雜的攻擊:DQN在中途阻止了57%的攻擊,在最後階段阻止了84%的攻擊,遠高於其他三種演算法.
Chatterjee說:「我們的目標是創建一個自主的防禦代理,它可以了解對手最有可能的下一步行動,並對其進行規劃,然後以最佳方式做出反應,以保護系統。」
儘管取得了進展,但沒有人願意將網路防禦完全交給人工智慧系統。相反,基於DRL的網路安全系統需要與人類協同工作,前PNNL的合著者Arnab Bhattacharya說。 「人工智慧可以很好地防禦特定的戰略,但不能很好地理解對手可能採取的所有方法。我們離人工智慧取代人類網路分析師的階段還很遠。人類的反饋和指導很重要。」
除了Chatterjee和Bhattacharya,研討會論文的作者還包括PNNL的Mahantesh Halappanavar和前PNNL科學家Ashutosh Dutta。這項工作由能源部科學辦公室資助,推動這項具體研究的一些早期工作是由PNNL的“科學中的人工推理數學”計劃通過實驗室指導研究與開發計劃資助的。
#以上是網路安全保衛者正在擴展他們的AI工具箱的詳細內容。更多資訊請關注PHP中文網其他相關文章!