译者 | 布加迪
审校 | 孙淑娟
机器学习(ML)并不是神奇的技术。通常来说,ML适合在拥有庞大数据集的情况下解决范围狭窄的问题,受关注的模式具有高度可重复性或可预测性。大多数安全问题不需要ML,也并不得益于ML。包括谷歌人员在内的许多专家建议,在解决复杂问题时,应该在用尽所有其他方法后再试用ML。
ML结合一系列广泛的统计技术:即使我们没有提前为正确答案编好程,ML也让我们可以训练计算机来估计解决问题的答案。如果精心设计的ML系统用来处理合适类型的问题,可以发掘原本无法获得的洞察力。
每家组织的IT环境有不一样的用途、架构、优先级和风险承受力。不可能创建在所有场景下广泛支持安全用例的算法、ML或其他产品。这就是为什么ML在安全领域的大多数成功应用结合了多种方法来解决一个非常具体的问题。典型例子包括垃圾邮件过滤器、DDoS或僵尸程序(bot)缓解以及恶意软件检测。
ML的最大挑战是拥有相关的可用数据来解决实际问题。对于监督式ML而言,您需要一个正确标记的大型数据集。比如说,要构建一个识别猫照片的模型,需要拿许多标记为“猫”的猫照片和许多标记为“非猫”的非猫照片来训练模型。如果您没有足够的照片或者它们的标记不准确,模型的效果就不会很好。
在安全方面,一个著名的监督式ML用例是无特征恶意软件检测。许多端点保护平台 (EPP)供应商使用ML来标记大量恶意样本和良性样本来训练模型,知道“恶意软件是什么样子”。这些模型可以正确识别规避性变异恶意软件及其他诡计(文件被篡改后,可以规避特征检测方法,但仍然是恶意的)。ML并不匹配特征,而是使用另一个特征集预测恶意内容,常常可以逮住基于特征的方法所疏漏的恶意软件。
由于ML模型是概率性的,因此需要取舍。ML可以逮住特征方法所疏漏的恶意软件,但也可能疏漏特征方法逮住的恶意软件。这就是为什么现代EPP工具使用混合方法,结合ML和基于特征的技术,以实现最大保护范围。
即使模型精心设计,ML在解释输出时也会带来一些另外的挑战,包括:
听起来都很美吗?
除了ML的利弊外,还有一个地方要注意:并非所有的“ML”都是真正的ML。统计方法可以为您提供有关数据的一些结论。ML根据您拥有的数据对您没有的数据进行预测。营销人员热衷于蹭“ML”和“人工智能”的热度,号称这是某种现代、创新、先进的技术产品。然而,人们常常很少考虑这项技术是否使用ML,更不用说ML是否是正确的方法。
当“恶意内容”定义明确且范围狭窄时,ML可以检测出。它还可以检测出与高度可预测的系统中的预期行为相偏差的情况。环境越稳定,ML越有可能正确识别异常。但并非每个异常都是恶意的,操作人员并不总是有足够的上下文来响应。
ML的强大功能在于增强而不是代替现有方法、系统和团队,以实现最佳覆盖范围和效率。
原文链接:https://www.darkreading.com/vulnerabilities-threats/the-beautiful-lies-of-machine-learning-in-security
以上是机器学习用于安全是美丽的谎言?的详细内容。更多信息请关注PHP中文网其他相关文章!