データ侵害に関する応用データサイエンス + ボーナス-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

データ侵害に関する応用データサイエンス + ボーナス

王林

Aug 29, 2024 am 06:32 AM

こんにちは！

今日、私はデータサイエンスとサイバーセキュリティの 2 つのドメインを埋め込むことにしました。

フォローしていただければ、私が何について書いているかがわかります。
Applied Data Science on data breaches + Bonus

私が何をしたのですか？

組織の種類に基づいて攻撃数の分析を実行しました。
Kaggle からデータセットをダウンロードしました。
次に、Jupyter Lab と Python を使用してデータの作業を開始しました。

このノートブックは、データのテストや観察、または操作のための演習用です。

Applied Data Science on data breaches + Bonus

いつものように、まずはデータをインポートしました。次に、データセットをロードしてクリーンアップしました。

EDA (探索的データ分析) は反復的で非順次的なプロセスであるため、データのクリーニングは何度でも実行できるステップです。したがって、その後、有意義な洞察を明らかにするために、このプロセスを続けました。

統計について一言

攻撃の数に基づいて、どの組織がサイバー攻撃を受けやすいかを調べるために、n=40 の単純なランダムサンプリングを選択しました。単純なランダムサンプリングは、母集団のすべてのメンバーが平等に選択される可能性があることを意味します。

仮説

帰無仮説 (H0): さまざまなタイプの組織が経験したサイバー攻撃の数に大きな違いはありません。
対立仮説 (H1): サイバー攻撃の数は、組織の種類によって大きく異なります。

攻撃の最大数によると、ヘルスケア業界は6回の攻撃でより危険性が高いと結論付けられました。反対に、銀行は攻撃数が最も少なく、つまり 1 でした。

最後に、Shapiro-Wilk テストを実行して、データセットの分布の正規性を確認しました。帰無仮説が拒否されたため、データは正規分布していないようでした。私はクラスカル・ウォリス検定を適用しましたが、帰無仮説を棄却できませんでした。これは、グループ間に有意差がないことを意味します。簡単に言うと、ある組織タイプが他の組織タイプよりもサイバー攻撃を受けやすいと自信を持って言える十分な証拠がなかったということです。

制限事項と将来の考慮事項

信頼水準、誤差の範囲、信頼区間は設定されていません。サンプルサイズが小さいため、統計的に有意な差を検出するのが難しくなります。将来的には、サンプルの選択ではこれらの手順が尊重され、より大規模なサンプルが考慮される予定です。

私の GitHub ページで、全体を見つけることができます。 ?

ボーナス？

私が指定したように、この記事にはおまけが付いています。データサイエンスとサイバーセキュリティの組み合わせはさらに進んでいます。TryHackMe ルームの攻撃ディレクトリ用の記事を作成しました!
一見すると、これらのトピックは無関係であると言えるでしょう。実は、これは、どのように侵害が発生するのかを示すデモンストレーションです。 ?データ侵害は何らかの理由と何らかの理由で発生するからです。

興味がありますか?私の GitHub ページから私の記事をチェックしてください。

あなたはどう思いますか?

以上がデータ侵害に関する応用データサイエンス + ボーナスの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonを使用した科学コンピューティングでアレイはどのように使用されていますか？Apr 25, 2025 am 12:28 AM

Arraysinpython、特にvianumpy、arecrucialinscientificComputing fortheirefficienty andversitility.1）彼らは、fornumericaloperations、data analysis、andmachinelearning.2）numpy'simplementation incensuresfasteroperationsthanpasteroperations.3）arayableminablecickick

同じシステムで異なるPythonバージョンをどのように処理しますか？Apr 25, 2025 am 12:24 AM

Pyenv、Venv、およびAnacondaを使用して、さまざまなPythonバージョンを管理できます。 1）Pyenvを使用して、複数のPythonバージョンを管理します。Pyenvをインストールし、グローバルバージョンとローカルバージョンを設定します。 2）VENVを使用して仮想環境を作成して、プロジェクトの依存関係を分離します。 3）Anacondaを使用して、データサイエンスプロジェクトでPythonバージョンを管理します。 4）システムレベルのタスク用にシステムPythonを保持します。これらのツールと戦略を通じて、Pythonのさまざまなバージョンを効果的に管理して、プロジェクトのスムーズな実行を確保できます。

標準のPythonアレイでnumpyアレイを使用することの利点は何ですか？Apr 25, 2025 am 12:21 AM

numpyarrayshaveveraladvantages-averstandardpythonarrays：1）thealmuchfasterduetocベースのインプレンテーション、2）アレモレメモリ効率、特にlargedatasets、および3）それらは、拡散化された、構造化された形成術科療法、

アレイの均質な性質はパフォーマンスにどのように影響しますか？Apr 25, 2025 am 12:13 AM

パフォーマンスに対する配列の均一性の影響は二重です。1）均一性により、コンパイラはメモリアクセスを最適化し、パフォーマンスを改善できます。 2）しかし、タイプの多様性を制限し、それが非効率につながる可能性があります。要するに、適切なデータ構造を選択することが重要です。

実行可能なPythonスクリプトを作成するためのベストプラクティスは何ですか？Apr 25, 2025 am 12:11 AM

craftexecutablepythonscripts、次のようになります

numpyアレイは、アレイモジュールを使用して作成された配列とどのように異なりますか？Apr 24, 2025 pm 03:53 PM

numpyarraysarasarebetterfornumeroperations andmulti-dimensionaldata、whilethearraymoduleissuitable forbasic、1）numpyexcelsinperformance and forlargedatasentassandcomplexoperations.2）thearraymuremememory-effictientivearientfa

Numpyアレイの使用は、Pythonで配列モジュール配列の使用と比較してどのように比較されますか？Apr 24, 2025 pm 03:49 PM

NumPyArraySareBetterforHeavyNumericalComputing、whilethearrayarayismoreSuitableformemory-constrainedprojectswithsimpledatatypes.1）numpyarraysofferarays andatiledance andpeperancedatasandatassandcomplexoperations.2）thearraymoduleisuleiseightweightandmemememe-ef

CTypesモジュールは、Pythonの配列にどのように関連していますか？Apr 24, 2025 pm 03:45 PM

ctypesallowsinging andmanipulatingc-stylearraysinpython.1）usectypestointerfacewithclibrariesforperformance.2）createc-stylearraysfornumericalcomputations.3）passarraystocfunctions foreffientientoperations.how、how、becuutiousmorymanagemation、performanceo

See all articles