ホームページ >バックエンド開発 >Python チュートリアル >データ侵害に関する応用データ サイエンス + ボーナス
こんにちは!
今日、私はデータ サイエンスとサイバーセキュリティの 2 つのドメインを埋め込むことにしました。
フォローしていただければ、私が何について書いているかがわかります。
組織の種類に基づいて攻撃数の分析を実行しました。
Kaggle からデータセットをダウンロードしました。
次に、Jupyter Lab と Python を使用してデータの作業を開始しました。
このノートブックは、データのテストや観察、または操作のための演習用です。
いつものように、まずはデータをインポートしました。次に、データセットをロードしてクリーンアップしました。
EDA (探索的データ分析) は反復的で非順次的なプロセスであるため、データのクリーニングは何度でも実行できるステップです。したがって、その後、有意義な洞察を明らかにするために、このプロセスを続けました。
攻撃の数に基づいて、どの組織がサイバー攻撃を受けやすいかを調べるために、n=40 の単純なランダム サンプリングを選択しました。単純なランダムサンプリングは、母集団のすべてのメンバーが平等に選択される可能性があることを意味します。
仮説
帰無仮説 (H0): さまざまなタイプの組織が経験したサイバー攻撃の数に大きな違いはありません。
対立仮説 (H1): サイバー攻撃の数は、組織の種類によって大きく異なります。
攻撃の最大数によると、ヘルスケア業界は6回の攻撃でより危険性が高いと結論付けられました。反対に、銀行は攻撃数が最も少なく、つまり 1 でした。
最後に、Shapiro-Wilk テストを実行して、データセットの分布の正規性を確認しました。帰無仮説が拒否されたため、データは正規分布していないようでした。私はクラスカル・ウォリス検定を適用しましたが、帰無仮説を棄却できませんでした。これは、グループ間に有意差がないことを意味します。簡単に言うと、ある組織タイプが他の組織タイプよりもサイバー攻撃を受けやすいと自信を持って言える十分な証拠がなかったということです。
信頼水準、誤差の範囲、信頼区間は設定されていません。サンプルサイズが小さいため、統計的に有意な差を検出するのが難しくなります。将来的には、サンプルの選択ではこれらの手順が尊重され、より大規模なサンプルが考慮される予定です。
私の GitHub ページで、全体を見つけることができます。 ?
私が指定したように、この記事にはおまけが付いています。データ サイエンスとサイバーセキュリティの組み合わせはさらに進んでいます。TryHackMe ルームの攻撃ディレクトリ用の記事を作成しました!
一見すると、これらのトピックは無関係であると言えるでしょう。実は、これは、どのように侵害が発生するのかを示すデモンストレーションです。 ?データ侵害は何らかの理由と何らかの理由で発生するからです。
興味がありますか?私の GitHub ページから私の記事をチェックしてください。
あなたはどう思いますか?
以上がデータ侵害に関する応用データ サイエンス + ボーナスの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。