首頁 >後端開發 >Python教學 >應用資料科學解決資料外洩+獎金

應用資料科學解決資料外洩+獎金

王林
王林原創
2024-08-29 06:32:05404瀏覽

你好!

今天我決定嵌入兩個領域:資料科學和網路安全。

跟隨我的腳步,你就會明白我在寫什麼。
Applied Data Science on data breaches + Bonus

我做了什麼?

我根據組織類型對攻擊次數進行了分析。
我從 Kaggle 下載了資料集。
然後,我開始使用 Jupyter Lab 和 Python 處理資料。

筆記本用於練習、測試和觀察或處理資料。

Applied Data Science on data breaches + Bonus

像往常一樣,我首先導入了資料。然後,我載入並清理了資料集。

清理資料是一個可以重複多次的步驟,因為 EDA(探索性資料分析)是一個迭代且非順序的過程。因此,後來我繼續這個過程,以發現有意義的見解。

關於統計的幾句話

我選擇了 n=40 的簡單隨機抽樣,根據攻擊數量找出哪個組織更容易受到網路攻擊。簡單隨機抽樣意味著總體中的每個成員都有平等的被選中的機會。

假設

  1. 原假設(H0):不同類型的組織遭受的網路攻擊數量沒有顯著差異。

  2. 替代假設(H1):不同類型組織的網路攻擊數量有顯著差異。

依最大攻擊次數,得出醫療產業較易發生,共發生6次攻擊。相反,銀行業 的攻擊次數最少,即 1。

最後,我執行了 Shapiro-Wilk 檢驗,以檢查資料集的分佈常態性。零假設被拒絕,因此數據看起來不呈常態分佈。我應用了克魯斯卡爾-沃利斯檢驗,從中我未能拒絕原假設——這意味著組別之間沒有顯著差異。簡而言之,這意味著沒有足夠的證據可以自信地說一種組織類型比另一種組織類型更容易受到網路攻擊。

限制和未來考慮因素

未設定信賴水準、誤差幅度和信賴區間。樣本量很小,因此很難檢測到統計上顯著的差異。未來樣本的選擇將遵循這些步驟,並考慮更大的樣本。

您可以在我的 GitHub 頁面上找到整個作品。 ?

獎金 ?

如我所指定的,本文有一個獎勵。資料科學和網路安全的結合仍在繼續:我為 TryHackMe 房間攻擊目錄創建了一篇文章!
乍一看,人們可能會說這些主題是不相關的。嗯,這實際上是如何違規發生的演示! ?因為不知何故並且出於某種原因出現了資料外洩。

好奇嗎?好吧,請從我的 GitHub 頁面查看我的文章。


你有什麼想法?

以上是應用資料科學解決資料外洩+獎金的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn