首页 >后端开发 >Python教程 >应用数据科学解决数据泄露+奖金

应用数据科学解决数据泄露+奖金

王林
王林原创
2024-08-29 06:32:05437浏览

你好!

今天我决定嵌入两个领域:数据科学和网络安全。

跟随我的脚步,你就会明白我在写什么。
Applied Data Science on data breaches + Bonus

我做了什么?

我根据组织类型对攻击次数进行了分析。
我从 Kaggle 下载了数据集。
然后,我开始使用 Jupyter Lab 和 Python 处理数据。

笔记本用于练习、测试和观察或处理数据。

Applied Data Science on data breaches + Bonus

像往常一样,我首先导入了数据。然后,我加载并清理了数据集。

清理数据是一个可以重复多次的步骤,因为 EDA(探索性数据分析)是一个迭代且非顺序的过程。因此,后来我继续这个过程,以发现有意义的见解。

关于统计的几句话

我选择了 n=40 的简单随机抽样,根据攻击数量找出哪个组织更容易受到网络攻击。简单随机抽样意味着总体中的每个成员都有平等的被选中的机会。

假设

  1. 原假设(H0):不同类型的组织遭受的网络攻击数量没有显着差异。

  2. 替代假设(H1):不同类型组织的网络攻击数量存在显着差异。

根据最大攻击次数,得出医疗行业较易发生,共发生6次攻击。相反,银行业 的攻击次数最少,即 1。

最后,我执行了 Shapiro-Wilk 检验,以检查数据集的分布正态性。零假设被拒绝,因此数据看起来不呈正态分布。我应用了克鲁斯卡尔-沃利斯检验,从中我未能拒绝原假设——这意味着组之间没有显着差异。简而言之,这意味着没有足够的证据可以自信地说一种组织类型比另一种组织类型更容易受到网络攻击。

局限性和未来考虑因素

未设置置信水平、误差幅度和置信区间。样本量很小,因此很难检测到统计上显着的差异。未来样本的选择将遵循这些步骤,并考虑更大的样本。

您可以在我的 GitHub 页面上找到整个作品。 ?

奖金 ?

正如我所指定的,本文有一个奖励。数据科学和网络安全的结合仍在继续:我为 TryHackMe 房间攻击目录创建了一篇文章!
乍一看,人们可能会说这些主题是不相关的。嗯,这实际上是如何违规发生的演示! ?因为不知何故并且出于某种原因出现了数据泄露。

好奇吗?好吧,请从我的 GitHub 页面查看我的文章。


你有什么想法?

以上是应用数据科学解决数据泄露+奖金的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn