譯者 | 布加迪
審校 | 孫淑娟
機器學習(ML)並不是神奇的技術。通常來說,ML適合在擁有龐大資料集的情況下解決範圍狹窄的問題,受關注的模式具有高度可重複性或可預測性。大多數安全性問題不需要ML,也不得益於ML。包括谷歌人員在內的許多專家建議,在解決複雜問題時,應該在用盡所有其他方法後再試一次ML。
ML結合一系列廣泛的統計技術:即使我們沒有提前為正確答案編好程,ML也讓我們可以訓練計算機來估計解決問題的答案。如果精心設計的ML系統用來處理合適類型的問題,可以發掘原本無法獲得的洞察力。
每家組織的IT環境有不一樣的用途、架構、優先順序和風險承受力。不可能創建在所有場景下廣泛支援安全用例的演算法、ML或其他產品。這就是為什麼ML在安全領域的大多數成功應用結合了多種方法來解決一個非常具體的問題。典型例子包括垃圾郵件過濾器、DDoS或殭屍程式(bot)緩解以及惡意軟體偵測。
ML的最大挑戰是擁有相關的可用資料來解決實際問題。對於監督式ML而言,您需要一個正確標記的大型資料集。比如說,要建立一個識別貓照片的模型,需要拿許多標記為「貓」的貓照片和許多標記為「非貓」的非貓照片來訓練模型。如果您沒有足夠的照片或它們的標記不準確,模型的效果就不會很好。
在安全性方面,一個著名的監督式ML用例是無特徵惡意軟體偵測。許多端點保護平台 (EPP)供應商使用ML來標記大量惡意樣本和良性樣本來訓練模型,知道「惡意軟體是什麼樣子」。這些模型可以正確識別規避性變異惡意軟體及其他詭計(檔案被篡改後,可以規避特徵檢測方法,但仍然是惡意的)。 ML並不符合特徵,而是使用另一個特徵集預測惡意內容,常常可以逮捕基於特徵的方法所疏漏的惡意軟體。
由於ML模型是機率性的,因此需要取捨。 ML可以逮捕特徵方法所疏漏的惡意軟體,但也可能疏漏特徵方法逮捕的惡意軟體。這就是為什麼現代EPP工具使用混合方法,結合ML和基於特徵的技術,以實現最大保護範圍。
即使模型精心設計,ML在解釋輸出時也會帶來一些另外的挑戰,包括:
聽起來都很美嗎?
除了ML的利弊外,還有一個地方要注意:並非所有的「ML」都是真正的ML。統計方法可以為您提供有關數據的一些結論。 ML根據您擁有的資料對您沒有的資料進行預測。行銷人員熱衷於蹭「ML」和「人工智慧」的熱度,號稱這是某種現代、創新、先進的科技產品。然而,人們常常很少考慮這項技術是否使用ML,更不用說ML是否是正確的方法。
當「惡意內容」定義明確且範圍狹窄時,ML可以偵測出。它還可以檢測出與高度可預測的系統中的預期行為相偏差的情況。環境越穩定,ML越有可能正確識別異常。但並非每個異常都是惡意的,操作人員並不總是有足夠的上下文來回應。
ML的強大功能在於增強而不是取代現有方法、系統和團隊,以實現最佳覆蓋範圍和效率。
原文連結:https://www.darkreading.com/vulnerabilities-threats/the-beautiful-lies-of-machine-learning-in-security
以上是機器學習用於安全是美麗的謊言?的詳細內容。更多資訊請關注PHP中文網其他相關文章!