Maison >développement back-end >Tutoriel Python >Science des données appliquée sur les violations de données + Bonus
Bonjour !
Aujourd'hui, j'ai décidé d'intégrer deux domaines : la science des données et la cybersécurité.
Suivez et vous verrez de quoi j'écris.
J'ai effectué une analyse du nombre d'attaques en fonction du type d'organisation.
J'ai téléchargé l'ensemble de données depuis Kaggle.
Ensuite, j'ai commencé à travailler sur les données en utilisant Jupyter Lab et Python.
Le cahier est destiné à des exercices, pour tester et observer ou jouer avec des données.
Comme d'habitude, j'ai avant tout importé les données. Ensuite, j'ai chargé et nettoyé l'ensemble de données.
Le nettoyage des données est une étape qui pourrait être effectuée plusieurs fois, car l'EDA (Exploratory Data Analysis) est un processus itératif et non séquentiel. Par conséquent, plus tard, j'ai continué ce processus, afin de découvrir des informations significatives.
J'ai choisi un échantillonnage aléatoire simple de n=40 pour savoir quelle organisation est la plus sujette aux cyberattaques, en fonction du nombre d'attaques. Un échantillonnage aléatoire simple signifie que chaque membre de la population a une chance égale d'être sélectionné.
L'hypothèse
Hypothèse nulle (H0) : Il n'y a pas de différence significative dans le nombre de cyberattaques subies par différents types d'organisations.
Hypothèse alternative (H1) : le nombre de cyberattaques diffère considérablement selon les différents types d'organisations.
Selon le nombre maximum d'attaques, il a été conclu que le secteur de la santé est plus sujet, avec 6 attaques. A l'inverse, le bancaire a connu le plus faible nombre d'attaques, soit 1.
Au final, j'ai effectué un test Shapiro-Wilk, pour vérifier la normalité de la distribution de l'ensemble de données. L'hypothèse nulle a été rejetée, de sorte que les données ne semblaient pas distribuées normalement. J'ai appliqué le test de Kruskal-Wallis, dont je n'ai pas réussi à rejeter l'hypothèse nulle, ce qui signifie qu'il n'y a pas de différence significative entre les groupes. En termes plus simples, cela signifie qu'il n'y avait pas suffisamment de preuves pour affirmer avec certitude qu'un type d'organisation est plus sujet aux cyberattaques que l'autre.
Aucun niveau de confiance, une marge d'erreur et un intervalle de confiance n'ont été définis. La taille de l’échantillon était petite, il est donc plus difficile de détecter des différences statistiquement significatives. À l'avenir, la sélection d'un échantillon respectera ces étapes et un échantillon plus large sera envisagé.
Vous pouvez retrouver l'intégralité du travail sur ma page GitHub. ?
Comme je l'ai précisé, cet article a un bonus. La combinaison de la science des données et de la cybersécurité continue : j'ai créé un article pour TryHackMe room Attacktive Directory !
On pourrait dire, à première vue, que ces sujets n’ont aucun rapport. Eh bien, il s'agit en fait d'une démonstration de comment une violation pourrait avoir lieu ! ? Parce que les violations de données apparaissent d'une manière ou d'une autre et pour une raison quelconque.
Curieuse ? Eh bien, consultez mon article sur ma page GitHub.
Qu'en pensez-vous ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!