你好!
今天我决定嵌入两个领域:数据科学和网络安全。
跟随我的脚步,你就会明白我在写什么。
我根据组织类型对攻击次数进行了分析。
我从 Kaggle 下载了数据集。
然后,我开始使用 Jupyter Lab 和 Python 处理数据。
笔记本用于练习、测试和观察或处理数据。
像往常一样,我首先导入了数据。然后,我加载并清理了数据集。
清理数据是一个可以重复多次的步骤,因为 EDA(探索性数据分析)是一个迭代且非顺序的过程。因此,后来我继续这个过程,以发现有意义的见解。
我选择了 n=40 的简单随机抽样,根据攻击数量找出哪个组织更容易受到网络攻击。简单随机抽样意味着总体中的每个成员都有平等的被选中的机会。
假设
原假设(H0):不同类型的组织遭受的网络攻击数量没有显着差异。
替代假设(H1):不同类型组织的网络攻击数量存在显着差异。
根据最大攻击次数,得出医疗行业较易发生,共发生6次攻击。相反,银行业 的攻击次数最少,即 1。
最后,我执行了 Shapiro-Wilk 检验,以检查数据集的分布正态性。零假设被拒绝,因此数据看起来不呈正态分布。我应用了克鲁斯卡尔-沃利斯检验,从中我未能拒绝原假设——这意味着组之间没有显着差异。简而言之,这意味着没有足够的证据可以自信地说一种组织类型比另一种组织类型更容易受到网络攻击。
未设置置信水平、误差幅度和置信区间。样本量很小,因此很难检测到统计上显着的差异。未来样本的选择将遵循这些步骤,并考虑更大的样本。
您可以在我的 GitHub 页面上找到整个作品。 ?
正如我所指定的,本文有一个奖励。数据科学和网络安全的结合仍在继续:我为 TryHackMe 房间攻击目录创建了一篇文章!
乍一看,人们可能会说这些主题是不相关的。嗯,这实际上是如何违规发生的演示! ?因为不知何故并且出于某种原因出现了数据泄露。
好奇吗?好吧,请从我的 GitHub 页面查看我的文章。
你有什么想法?
以上是应用数据科学解决数据泄露+奖金的详细内容。更多信息请关注PHP中文网其他相关文章!