Rumah >pembangunan bahagian belakang >Tutorial Python >Sains Data Gunaan mengenai pelanggaran data + Bonus
Helo!
Hari ini saya memutuskan untuk membenamkan dua domain: sains data dan keselamatan siber.
Ikuti bersama dan anda akan melihat perkara yang saya tulis.
Saya melakukan analisis ke atas bilangan serangan berdasarkan jenis organisasi.
Saya memuat turun set data daripada Kaggle.
Kemudian, saya mula mengusahakan data menggunakan Jupyter Lab dan Python.
Buku nota adalah untuk tujuan latihan, untuk menguji dan memerhati- atau bermain dengan- data.
Seperti biasa, yang pertama dan terpenting saya mengimport data. Kemudian, saya memuatkan dan membersihkan set data.
Membersihkan data ialah langkah yang boleh dilakukan lebih banyak kali, kerana EDA (Analisis Data Penerokaan) ialah proses berulang dan tidak berurutan. Oleh itu, kemudian saya meneruskan proses ini, untuk mendedahkan cerapan yang bermakna.
Saya memilih pensampelan rawak mudah n=40 untuk mengetahui organisasi mana yang lebih terdedah kepada serangan siber, berdasarkan bilangan serangan. Persampelan rawak mudah bermakna setiap ahli populasi mempunyai peluang yang sama untuk dipilih.
Hipotesis
Hipotesis Nol (H0): Tiada perbezaan yang ketara dalam bilangan serangan siber yang dialami oleh pelbagai jenis organisasi.
Hipotesis Alternatif (H1): Bilangan serangan siber berbeza dengan ketara merentas pelbagai jenis organisasi.
Menurut bilangan maksimum serangan, disimpulkan bahawa industri penjagaan kesihatan lebih terdedah, dengan 6 serangan. Sebaliknya, perbankan mempunyai bilangan serangan paling rendah, iaitu 1.
Akhirnya, saya melakukan ujian Shapiro- Wilk, untuk menyemak normaliti taburan set data. Hipotesis Null telah ditolak, jadi data tidak kelihatan bertaburan normal. Saya menggunakan ujian Kruskal- Wallis, yang mana saya gagal menolak Hipotesis Null- bermakna tiada perbezaan yang signifikan antara kumpulan. Dalam istilah yang lebih mudah, ini bermakna tiada bukti yang mencukupi untuk mengatakan dengan yakin bahawa satu jenis organisasi lebih terdedah kepada serangan siber berbanding yang lain.
Tiada tahap keyakinan, margin ralat dan selang keyakinan ditetapkan. Saiz sampel adalah kecil, oleh itu adalah lebih sukar untuk mengesan perbezaan ketara secara statistik. Pada masa hadapan, pemilihan sampel akan mematuhi langkah-langkah ini dan sampel yang lebih besar akan dipertimbangkan.
Anda boleh menemui keseluruhan kerja pada halaman GitHub saya. ?
Seperti yang saya nyatakan, artikel ini mempunyai bonus. Gabungan sains data dan keselamatan siber diteruskan: Saya membuat penulisan untuk Direktori Attacktive bilik TryHackMe!
Seseorang boleh mengatakan, pada pandangan pertama, bahawa topik ini tidak berkaitan. Sebenarnya, ini adalah demonstrasi bagaimana pelanggaran boleh berlaku! ? Kerana pelanggaran data kelihatan entah bagaimana dan atas sebab tertentu.
Ingin tahu? Baik, semak penulisan saya daripada halaman GitHub saya.
Apakah pendapat anda?
Atas ialah kandungan terperinci Sains Data Gunaan mengenai pelanggaran data + Bonus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!